Physics Informed Deep Kernel Learning ( http://arxiv.org/abs/2006.04976v2 )

Deep kernel learning is a promising combination of deep neural networks and nonparametric function learning. However, as a data driven approach, the performance of deep kernel learning can still be restricted by scarce or insufficient data, especially in extrapolation tasks. To address these limitations, we propose Physics Informed Deep Kernel Learning (PI-DKL) that exploits physics knowledge represented by differential equations with latent sources. Specifically, we use the posterior function sample of the Gaussian process as the surrogate for the solution of the differential equation, and construct a generative component to integrate the equation in a principled Bayesian hybrid framework. For efficient and effective inference, we marginalize out the latent variables in the joint probability and derive a collapsed model evidence lower bound (ELBO), based on which we develop a stochastic model estimation algorithm. Our ELBO can be viewed as a nice, interpretable posterior regularization objective. On synthetic datasets and real-world applications, we show the advantage of our approach in both prediction accuracy and uncertainty quantification.
Quantum Ensemble for Classification ( http://arxiv.org/abs/2007.01028v3 )

A powerful way to improve performance in machine learning is to construct an ensemble that combines the predictions of multiple models. Ensemble methods are often much more accurate and lower variance than the individual classifiers that make them up but have high requirements in terms of memory and computational time. In fact, a large number of alternative algorithms is usually adopted, each requiring to query all available data. We propose a new quantum algorithm that exploits quantum superposition, entanglement and interference to build an ensemble of classification models. Thanks to the generation of the several quantum trajectories in superposition, we obtain $B$ transformations of the quantum state which encodes the training set in only $log\left(B\right)$ operations. This implies exponential growth of the ensemble size while increasing linearly the depth of the correspondent circuit. Furthermore, when considering the overall cost of the algorithm, we show that the training of a single weak classifier impacts additively the overall time complexity rather than multiplicatively, as it usually happens in classical ensemble methods. We also present small-scale experiments on real-world datasets, defining a quantum version of the cosine classifier and using the IBM qiskit environment to show how the algorithms work.
OrbNet: Deep Learning for Quantum Chemistry Using Symmetry-Adapted Atomic-Orbital Features ( http://arxiv.org/abs/2007.08026v3 )

We introduce a machine learning method in which energy solutions from the Schrodinger equation are predicted using symmetry adapted atomic orbitals features and a graph neural-network architecture. \textsc{OrbNet} is shown to outperform existing methods in terms of learning efficiency and transferability for the prediction of density functional theory results while employing low-cost features that are obtained from semi-empirical electronic structure calculations. For applications to datasets of drug-like molecules, including QM7b-T, QM9, GDB-13-T, DrugBank, and the conformer benchmark dataset of Folmsbee and Hutchison, \textsc{OrbNet} predicts energies within chemical accuracy of DFT at a computational cost that is thousand-fold or more reduced.
PECOS: Prediction for Enormous and Correlated Output Spaces ( http://arxiv.org/abs/2010.05878v2 )

Many large-scale applications amount to finding relevant results from an enormous output space of potential candidates. For example, finding the best matching product from a large catalog or suggesting related search phrases on a search engine. The size of the output space for these problems can range from millions to billions, and can even be infinite in some applications. Moreover, training data is often limited for the long-tail items in the output space. Fortunately, items in the output space are often correlated thereby presenting an opportunity to alleviate the data sparsity issue. In this paper, we propose the Prediction for Enormous and Correlated Output Spaces (PECOS) framework, a versatile and modular machine learning framework for solving prediction problems for very large output spaces, and apply it to the eXtreme Multilabel Ranking (XMR) problem: given an input instance, find and rank the most relevant items from an enormous but fixed and finite output space. We propose a three phase framework for PECOS: (i) in the first phase, PECOS organizes the output space using a semantic indexing scheme, (ii) in the second phase, PECOS uses the indexing to narrow down the output space by orders of magnitude using a machine learned matching scheme, and (iii) in the third phase, PECOS ranks the matched items using a final ranking scheme. The versatility and modularity of PECOS allows for easy plug-and-play of various choices for the indexing, matching, and ranking phases. We also develop very fast inference procedures which allow us to perform XMR predictions in real time; for example, inference takes less than 1 millisecond per input on the dataset with 2.8 million labels. The PECOS software is available at https://libpecos.org.
Deperturbation of Online Social Networks via Bayesian Label Transition ( http://arxiv.org/abs/2010.14121v3 )

Online social networks (OSNs) classify users into different categories based on their online activities and interests, a task which is referred as a node classification task. Such a task can be solved effectively using Graph Convolutional Networks (GCNs). However, a small number of users, so-called perturbators, may perform random activities on an OSN, which significantly deteriorate the performance of a GCN-based node classification task. Existing works in this direction defend GCNs either by adversarial training or by identifying the attacker nodes followed by their removal. However, both of these approaches require that the attack patterns or attacker nodes be identified first, which is difficult in the scenario when the number of perturbator nodes is very small. In this work, we develop a GCN defense model, namely GraphLT, which uses the concept of label transition. GraphLT assumes that perturbators' random activities deteriorate GCN's performance. To overcome this issue, GraphLT subsequently uses a novel Bayesian label transition model, which takes GCN's predicted labels and applies label transitions by Gibbs-sampling-based inference and thus repairs GCN's prediction to achieve better node classification. Extensive experiments on seven benchmark datasets show that GraphLT considerably enhances the performance of the node classifier in an unperturbed environment; furthermore, it validates that GraphLT can successfully repair a GCN-based node classifier with superior performance than several competing methods.
Morphological Development at the Evolutionary Timescale: Robotic Developmental Evolution ( http://arxiv.org/abs/2010.14894v2 )

Evolution and development operate at different timescales; generations for the one, a lifetime for the other. These two processes, the basis of much of life on earth, interact in many non-trivial ways, but their temporal hierarchy -- evolution overarching development -- is observed for most multicellular lifeforms. When designing robots however, this tenet lifts: it becomes -- however natural -- a design choice. We propose to inverse this temporal hierarchy and design a developmental process happening at the phylogenetic timescale. Over a classic evolutionary search aimed at finding good gaits for tentacle 2D robots, we add a developmental process over the robots' morphologies. Within a generation, the morphology of the robots does not change. But from one generation to the next, the morphology develops. Much like we become bigger, stronger, and heavier as we age, our robots are bigger, stronger and heavier with each passing generation. Our robots start with baby morphologies, and a few thousand generations later, end-up with adult ones. We show that this produces better and qualitatively different gaits than an evolutionary search with only adult robots, and that it prevents premature convergence by fostering exploration. In addition, we validate our method on voxel lattice 3D robots from the literature and compare it to a recent evolutionary developmental approach. Our method is conceptually simple, and can be effective on small or large populations of robots, and intrinsic to the robot and its morphology, not the task or environment. Furthermore, by recasting the evolutionary search as a learning process, these results can be viewed in the context of developmental learning robotics.
Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally Inattentive Reinforcement Learning ( http://arxiv.org/abs/2202.01691v1 )

Multi-agent reinforcement learning (MARL) is a powerful framework for studying emergent behavior in complex agent-based simulations. However, RL agents are often assumed to be rational and behave optimally, which does not fully reflect human behavior. Here, we study more human-like RL agents which incorporate an established model of human-irrationality, the Rational Inattention (RI) model. RI models the cost of cognitive information processing using mutual information. Our RIRL framework generalizes and is more flexible than prior work by allowing for multi-timestep dynamics and information channels with heterogeneous processing costs. We evaluate RIRL in Principal-Agent (specifically manager-employee relations) problem settings of varying complexity where RI models information asymmetry (e.g. it may be costly for the manager to observe certain information about the employees). We show that using RIRL yields a rich spectrum of new equilibrium behaviors that differ from those found under rational assumptions. For instance, some forms of a Principal's inattention can increase Agent welfare due to increased compensation, while other forms of inattention can decrease Agent welfare by encouraging extra work effort. Additionally, new strategies emerge compared to those under rationality assumptions, e.g., Agents are incentivized to increase work effort. These results suggest RIRL is a powerful tool towards building AI agents that can mimic real human behavior.
A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v1 )

I give a short introduction to data ethics. My focal audience is mathematicians, but I hope that my discussion will also be useful to others. I am not an expert about data ethics, and my article is only a starting point. I encourage readers to examine the resources that I discuss and to continue to reflect carefully on data ethics and on the societal implications of data and data analysis throughout their lives.
Network-based link prediction of scientific concepts -- a Science4Cast competition entry ( http://arxiv.org/abs/2201.07978v1 )

We report on a model built to predict links in a complex network of scientific concepts, in the context of the Science4Cast 2021 competition. We show that the network heavily favours linking nodes of high degree, indicating that new scientific connections are primarily made between popular concepts, which constitutes the main feature of our model. Besides this notion of popularity, we use a measure of similarity between nodes quantified by a normalized count of their common neighbours to improve the model. Finally, we show that the model can be further improved by considering a time-weighted adjacency matrix with both older and newer links having higher impact in the predictions, representing rooted concepts and state of the art research, respectively.
Annotating the Tweebank Corpus on Named Entity Recognition and Building NLP Models for Social Media Analysis ( http://arxiv.org/abs/2201.07281v1 )

ライセンス: CC BY 4.0
翻訳日:2022-01-21 02:13:10 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 01:55:44 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 01:33:31 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 01:30:52 公開日:2022-01-18
ライセンス: CC0 1.0
翻訳日:2022-01-21 01:15:09 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 00:58:49 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 00:38:38 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 00:21:19 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-21 00:02:22 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 15:27:32 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 15:26:33 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 14:53:47 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 14:02:30 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 13:59:24 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 13:58:29 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 13:58:22 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 13:45:26 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 13:30:33 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-20 13:29:57 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 03:56:15 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 03:29:37 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 03:12:59 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 02:33:13 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 01:44:52 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 01:35:49 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 01:24:51 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 01:17:11 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 00:53:04 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 00:44:51 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 00:25:10 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 00:17:57 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-20 00:00:44 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 23:28:42 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 23:15:14 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 22:59:35 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 22:47:59 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 22:46:14 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 22:19:33 公開日:2022-01-18
ライセンス: CC BY-SA 4.0
翻訳日:2022-01-19 22:05:32 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 21:52:32 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 21:18:06 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 21:02:57 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 21:01:57 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 19:46:43 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 19:17:44 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 19:02:23 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 19:01:04 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 19:00:45 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:56:10 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:55:50 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:55:34 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 18:54:02 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:44:53 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:43:18 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:39:44 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:32:06 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:31:43 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:31:17 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:30:59 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:30:37 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:30:15 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 18:29:57 公開日:2022-01-18
ライセンス: CC BY 4.0
翻訳日:2022-01-19 18:28:28 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 17:57:03 公開日:2022-01-18
ライセンス: Link先を確認
翻訳日:2022-01-19 17:56:50 公開日:2022-01-18
ライセンス: Link先を確認
Augustine Denteh (1), Helge Liebert (2) ((1) Department of Economics, Tulane University, (2) Department of Economics, University of Zurich)(参考訳) オレゴン州の救急医療機関(ED)がオレゴン州の実験で利用したことに対する新たな知見を提供する。 非パラメトリック因果機械学習法を用いて,メディケイド被覆がED使用に与える影響について,経済的に意味のある治療効果がみられた。 効果分布は広く分散しており、有意な効果は高用量個体に集中している。 参加者の約14%の小さなグループで、ed使用が大幅に増加したことで、全体的な効果が向上した。 個々の治療効果の残りは、ゼロまたは負と区別できない。 平均治療効果は、ほとんどの人の個別治療効果を表すものではない。 対象は,男性,スナップ前参加者,50歳未満の成人,初診前ed使用者の4群である。 以上の結果から, メディケイドは, ED使用に慣れており, 救急部門をあらゆる種類のケアに利用している人の間で, 有効利用率を高めることが示唆された。 我々は、異種効果を利用して最適な割り当てルールを推定し、同様の拡張における保険適用を優先順位付けする。

We provide new insights into the finding that Medicaid increased emergency department (ED) use from the Oregon experiment. Using nonparametric causal machine learning methods, we find economically meaningful treatment effect heterogeneity in the impact of Medicaid coverage on ED use. The effect distribution is widely dispersed, with significant positive effects concentrated among high-use individuals. A small group - about 14% of participants - in the right tail with significant increases in ED use drives the overall effect. The remainder of the individualized treatment effects is either indistinguishable from zero or negative. The average treatment effect is not representative of the individualized treatment effect for most people. We identify four priority groups with large and statistically significant increases in ED use - men, prior SNAP participants, adults less than 50 years old, and those with pre-lottery ED use classified as primary care treatable. Our results point to an essential role of intensive margin effects - Medicaid increases utilization among those already accustomed to ED use and who use the emergency department for all types of care. We leverage the heterogeneous effects to estimate optimal assignment rules to prioritize insurance applications in similar expansions.
Michael Gref, Nike Matthiesen, Christoph Schmidt, Sven Behnke, Joachim K\"ohler(参考訳) 近年,音声認識システムは音声認識精度が著しく向上している。 一部の領域では、モデルが人間に近いパフォーマンスを達成している。 しかし, 口腔史の転写性能はヒトの精度には達していない。 本研究は,人間と機械の転写におけるこの差の大きさについて検討する。 そこで本研究では,新しい口腔史データセット上で3人の人間の転写を解析・比較する。 クリーンな音響条件を用いた最近のドイツの口頭史インタビューにおいて,人間の単語誤り率8.7%を推定した。 近年の機械書き起こし精度と比較するため,放送音声における近人性能を実現する音響モデルの適応実験を行った。 清潔で騒々しい口頭史インタビューの堅牢性と一般化に及ぼす異なる適応データの影響について検討する。 この課題に対して音響モデルを5~8%の相対的に最適化し, クリーンオーラルヒストリーの面接において, 雑音下で23.9%, 単語誤り率15.6%を達成する。

Automatic speech recognition systems have accomplished remarkable improvements in transcription accuracy in recent years. On some domains, models now achieve near-human performance. However, transcription performance on oral history has not yet reached human accuracy. In the present work, we investigate how large this gap between human and machine transcription still is. For this purpose, we analyze and compare transcriptions of three humans on a new oral history data set. We estimate a human word error rate of 8.7% for recent German oral history interviews with clean acoustic conditions. For comparison with recent machine transcription accuracy, we present experiments on the adaptation of an acoustic model achieving near-human performance on broadcast speech. We investigate the influence of different adaptation data on robustness and generalization for clean and noisy oral history interviews. We optimize our acoustic models by 5 to 8% relative for this task and achieve 23.9% WER on noisy and 15.6% word error rate on clean oral history interviews.
Michael Gref, Nike Matthiesen, Sreenivasa Hikkal Venugopala, Shalaka Satheesh, Aswinkumar Vijayananth, Duc Bach Ha, Sven Behnke, Joachim K\"ohler(参考訳) 視聴覚インタビューアーカイブにおける研究は、しばしば、その発言だけでなく、その方法にも関心がある。 感情分析と感情認識は、これらの異なる顔の捕獲、分類、検索に役立つ。 特に、口述史アーカイブでは、このような索引付け技術が大きな関心事となる。 これらの技術は、歴史記憶における感情の役割を理解するのに役立つ。 しかし、人間はしばしばあいまいで主観的な感情や感情を知覚する。 さらに、口頭史インタビューは、複雑な、時には矛盾する、時には非常に微妙な感情の面の多層レベルを持つ。 したがって、マシンと人間がこれらを事前に定義されたカテゴリに捉えて割り当てた確率が問題となる。 本稿では,ドイツにおける口頭史インタビューにおける感情と感情の認識におけるあいまいさと機械学習システムへの影響について検討する。 我々の実験は、異なる感情に対する人間の知覚のかなりの違いを明らかにした。 さらに,様々なモーダルを用いた機械学習実験を報告する。 授業不均衡やトレーニングデータの欠如など,人間知覚の曖昧さやその他の課題は,現在,これらの技術が口伝アーカイブに活用できる機会を制限している。 それにもかかわらず、我々の研究は有望な観察とさらなる研究の可能性を明らかにする。

For research in audiovisual interview archives often it is not only of interest what is said but also how. Sentiment analysis and emotion recognition can help capture, categorize and make these different facets searchable. In particular, for oral history archives, such indexing technologies can be of great interest. These technologies can help understand the role of emotions in historical remembering. However, humans often perceive sentiments and emotions ambiguously and subjectively. Moreover, oral history interviews have multi-layered levels of complex, sometimes contradictory, sometimes very subtle facets of emotions. Therefore, the question arises of the chance machines and humans have capturing and assigning these into predefined categories. This paper investigates the ambiguity in human perception of emotions and sentiment in German oral history interviews and the impact on machine learning systems. Our experiments reveal substantial differences in human perception for different emotions. Furthermore, we report from ongoing machine learning experiments with different modalities. We show that the human perceptual ambiguity and other challenges, such as class imbalance and lack of training data, currently limit the opportunities of these technologies for oral history archives. Nonetheless, our work uncovers promising observations and possibilities for further research.
Azarakhsh Keipour and Maryam Bandari and Stefan Schaal(参考訳) 変形可能な1次元オブジェクト(ケーブル、ロープ、糸など)をビデオフレームのストリームでモデル化し追跡する多くの方法が存在する。 しかし、これらの方法はいくつかの初期条件の存在に依存する。 我々の知る限りでは、これらの初期条件を非自明な状況で抽出できる検出手法の話題はほとんど解決されていない。 検出方法の欠如は、現実世界のアプリケーションにおけるトラッキングメソッドの使用を制限し、これらのオブジェクトを扱う完全自律的なアプリケーションにとってボトルネックとなる。 本稿では, 交差や閉塞を扱える変形可能な一次元物体の検出手法を提案する。 ルーティングや操作などのタスクに使用することができ、トラッキングメソッドが必要とする初期化を自動的に提供する。 このアルゴリズムは変形可能な物体を含む画像を取り、受動球状関節に接続された固定長円筒セグメント列を出力する。 鎖は変形可能な物体の自然な挙動に従い、元の画像の隙間と閉塞を埋めます。 実験および実験により, 様々な複雑な条件下で変形可能な一次元物体を正しく検出できることが確認された。

Many methods exist to model and track deformable one-dimensional objects (e.g., cables, ropes, and threads) across a stream of video frames. However, these methods depend on the existence of some initial conditions. To the best of our knowledge, the topic of detection methods that can extract those initial conditions in non-trivial situations has hardly been addressed. The lack of detection methods limits the use of the tracking methods in real-world applications and is a bottleneck for fully autonomous applications that work with these objects. This paper proposes an approach for detecting deformable one-dimensional objects which can handle crossings and occlusions. It can be used for tasks such as routing and manipulation and automatically provides the initialization required by the tracking methods. Our algorithm takes an image containing a deformable object and outputs a chain of fixed-length cylindrical segments connected with passive spherical joints. The chain follows the natural behavior of the deformable object and fills the gaps and occlusions in the original image. Our tests and experiments have shown that the method can correctly detect deformable one-dimensional objects in various complex conditions.
Amitay Eldar, Ido Amos and Yoel Shkolnisky(参考訳) 粒子抽出は現在、核電子顕微鏡による単一粒子再構成パイプラインにおいて重要なステップである。 取得したマイクログラフの汚染は粒子ピッカーの性能を著しく低下させ、収集した粒子のスタックには多くの'非粒子'が発生する。 本稿では, 粒子径の近似値のみを入力として, 汚染を検出する自動手法であるasocem (automatic segmentation of contaminations in cryo-em) を提案する。 特にパラメータチューニングや手作業による介入は不要である。 本手法は, 汚染領域の統計的分布が他のマイクログラフの分布と異なることに着目したものである。 この非制限的な仮定により、支持グリッドのカーボンエッジから異なる大きさのハイコントラストブロブまで、さまざまな種類の汚染を自動的に検出することができる。 様々な種類の汚染を含む実験データセットを用いて,アルゴリズムの有効性を示す。 ASOCEM は KLT picker \cite{ELDAR2020107473} の一部として統合されており、 \url{https://github.com/ShkolniskyLab/kltpicker2} で利用可能である。

Particle picking is currently a critical step in the cryo-electron microscopy single particle reconstruction pipeline. Contaminations in the acquired micrographs severely degrade the performance of particle pickers, resulting is many ``non-particles'' in the collected stack of particles. In this paper, we present ASOCEM (Automatic Segmentation Of Contaminations in cryo-EM), an automatic method to detect and segment contaminations, which requires as an input only the approximated particle size. In particular, it does not require any parameter tuning nor manual intervention. Our method is based on the observation that the statistical distribution of contaminated regions is different from that of the rest of the micrograph. This nonrestrictive assumption allows to automatically detect various types of contaminations, from the carbon edges of the supporting grid to high contrast blobs of different sizes. We demonstrate the efficiency of our algorithm using various experimental data sets containing various types of contaminations. ASOCEM is integrated as part of the KLT picker \cite{ELDAR2020107473} and is available at \url{https://github.com/ShkolniskyLab/kltpicker2}.
Yan Zhao, Lingjun Zhao, Zhong Liu, Dewen Hu, Gangyao Kuang, Li Liu(参考訳) SAR(Synthetic Aperture Radar)画像における航空機検出は、航空機の非常に離散的な外観、明らかなクラス内変異、小さなサイズ、深刻な背景の干渉により、SAR自動目標認識(SAR ATR)領域において難しい課題である。 本稿では,sar画像中の航空機を検出するために,注目的特徴改善・アライメントネットワーク(afran)と呼ばれる単発検出器を提案する。 具体的には,航空機の情報特性の精細化・整合化のために,注意機能融合モジュール(AFFM),変形性横方向接続モジュール(DLCM),アンカー誘導検出モジュール(ADM)の3つの重要なコンポーネントを慎重に設計する。 干渉の少ない航空機の特性を表現するため、AFFMにおいて低レベルのテクスチャと高レベルのセマンティックな特徴を融合して洗練する。 航空機の離散後方散乱点と畳み込みサンプリングスポットのアライメントはDLCMで促進される。 最終的に航空機の位置は、改良されたアンカーによって修正された整列した特徴に基づいてADMで正確に予測される。 本手法の性能を評価するため,自作SAR航空機スライスデータセットと大シーンSAR画像を収集した。 詳細な分析による広範囲な量的・質的実験により,提案する3成分の有効性が示された。 さらに、DAPN、PADN、一般的なCNNベースの手法(FPN、Cascade R-CNN、SSD、RefineDet、RDDetなど)と比較して、最も高い検出精度と競合速度が得られた。

Aircraft detection in Synthetic Aperture Radar (SAR) imagery is a challenging task in SAR Automatic Target Recognition (SAR ATR) areas due to aircraft's extremely discrete appearance, obvious intraclass variation, small size and serious background's interference. In this paper, a single-shot detector namely Attentional Feature Refinement and Alignment Network (AFRAN) is proposed for detecting aircraft in SAR images with competitive accuracy and speed. Specifically, three significant components including Attention Feature Fusion Module (AFFM), Deformable Lateral Connection Module (DLCM) and Anchor-guided Detection Module (ADM), are carefully designed in our method for refining and aligning informative characteristics of aircraft. To represent characteristics of aircraft with less interference, low-level textural and high-level semantic features of aircraft are fused and refined in AFFM throughly. The alignment between aircraft's discrete back-scatting points and convolutional sampling spots is promoted in DLCM. Eventually, the locations of aircraft are predicted precisely in ADM based on aligned features revised by refined anchors. To evaluate the performance of our method, a self-built SAR aircraft sliced dataset and a large scene SAR image are collected. Extensive quantitative and qualitative experiments with detailed analysis illustrate the effectiveness of the three proposed components. Furthermore, the topmost detection accuracy and competitive speed are achieved by our method compared with other domain-specific,e.g., DAPN, PADN, and general CNN-based methods,e.g., FPN, Cascade R-CNN, SSD, RefineDet and RPDet.
Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi and Kenji Sugimoto(参考訳) ディープラーニングで最適化されるべき問題がより現実的になるにつれて、データセットは必然的に、推定入力/出力によるラベル付けや置換といった、最適化結果に悪影響を及ぼす様々なノイズを含む。 安全ネットとして、ネットワークパラメータを学習の最終過程として更新する確率勾配降下(SGD)最適化器をノイズに対してより堅牢に改善することは自然な考えである。 関連する研究により,adam-like sgdオプティマイザにおける最初の運動量は,ノイズロバスト学習者のt分布に基づいて修正可能となり,雑音に対するロバスト性が継承されることが判明した。 本稿では,第1の運動量だけでなく,生徒のt分布に基づくすべての統計量も導出するAdaTermを提案する。 計算された勾配が異常であると思われる場合、adatermは、更新のための計算された勾配を除外し、次の更新のロバスト性を強化することが期待されている。 この雑音適応行動により, adaterm の学習性能は, 雑音比が異なるいくつかの事例において, 典型的な最適化問題により確認された。

As the problems to be optimized with deep learning become more practical, their datasets inevitably contain a variety of noise, such as mislabeling and substitution by estimated inputs/outputs, which would have negative impacts on the optimization results. As a safety net, it is a natural idea to improve a stochastic gradient descent (SGD) optimizer, which updates the network parameters as the final process of learning, to be more robust to noise. The related work revealed that the first momentum utilized in the Adam-like SGD optimizers can be modified based on the noise-robust student's t-distribution, resulting in inheriting the robustness to noise. In this paper, we propose AdaTerm, which derives not only the first momentum but also all the involved statistics based on the student's t-distribution. If the computed gradients seem to probably be aberrant, AdaTerm is expected to exclude the computed gradients for updates, and reinforce the robustness for the next updates; otherwise, it updates the network parameters normally, and can relax the robustness for the next updates. With this noise-adaptive behavior, the excellent learning performance of AdaTerm was confirmed via typical optimization problems with several cases where the noise ratio would be different.
Kun-Peng Ning, Xun Zhao, Yu Li, Sheng-Jun Huang(参考訳) 既存のアクティブラーニング研究は通常、ラベル付けされるすべてのデータ例が既知のクラスから引き出されると仮定してクローズドセット設定で動作する。 しかし、実際のアノテーションタスクでは、ラベルなしデータは通常未知のクラスから大量のサンプルを含むため、ほとんどのアクティブな学習方法が失敗する。 このオープンセットアノテーション(OSA)問題に対処するために,LfOSAと呼ばれる新しいアクティブ学習フレームワークを提案する。 LfOSAフレームワークは、ガウス混合モデルを用いて、サンプルごとの最大アクティベーション値(MAV)分布をモデル化する補助ネットワークを導入し、未ラベル集合の既知のクラスから、最も高い確率のサンプルを動的に選択できる。 さらに、損失関数の温度$t$を下げることで、既知の監視と未知の監視の両方を利用して検出モデルをさらに最適化する。 実験の結果,提案手法は既知のクラスの選択品質を著しく向上させ,最先端のアクティブラーニング手法よりもアノテーションコストを低く分類精度を向上できることがわかった。 私たちの知る限りでは、これはオープンセットアノテーションのためのアクティブラーニングの最初の仕事です。

Existing active learning studies typically work in the closed-set setting by assuming that all data examples to be labeled are drawn from known classes. However, in real annotation tasks, the unlabeled data usually contains a large amount of examples from unknown classes, resulting in the failure of most active learning methods. To tackle this open-set annotation (OSA) problem, we propose a new active learning framework called LfOSA, which boosts the classification performance with an effective sampling strategy to precisely detect examples from known classes for annotation. The LfOSA framework introduces an auxiliary network to model the per-example max activation value (MAV) distribution with a Gaussian Mixture Model, which can dynamically select the examples with highest probability from known classes in the unlabeled set. Moreover, by reducing the temperature $T$ of the loss function, the detection model will be further optimized by exploiting both known and unknown supervision. The experimental results show that the proposed method can significantly improve the selection quality of known classes, and achieve higher classification accuracy with lower annotation cost than state-of-the-art active learning methods. To the best of our knowledge, this is the first work of active learning for open-set annotation.
Kitty Li and Ninh Pham(参考訳) 協調的異常検出では、複数の参加者が自身のデータを交換することなく、分散デバイスでトレーニングされたローカル検出器を交換する。 協調的異常検出の重要な問題は、複数の局所検出器を効率的に集約して、参加者のデータのプライバシーを破らずにグローバル検出器を形成することであり、検出精度を低下させることである。 本研究では、局所性に敏感なハッシュに基づくアンサンブル法を用いて、協調的外乱を検知する。 提案するLSH iTablesは,多くの実世界のデータセット上の集中型および分散型シナリオにおいて,近年のアンサンブル競合より優れています。

In collaborative outlier detection, multiple participants exchange their local detectors trained on decentralized devices without exchanging their own data. A key problem of collaborative outlier detection is efficiently aggregating multiple local detectors to form a global detector without breaching the privacy of participants' data and degrading the detection accuracy. We study locality-sensitive hashing-based ensemble methods to detect collaborative outliers since they are mergeable and compatible with differentially private mechanisms. Our proposed LSH iTables is simple and outperforms recent ensemble competitors on centralized and decentralized scenarios over many real-world data sets.
Qianqian Zhang, Xinru Liao, Quan Liu, Jian Xu, Bo Zheng(参考訳) TaobaoやAmazonといった多くのeコマースプラットフォームでは、広告主が重要な役割を果たす。 マーケティングニーズをフルフィルし、ビジネスの成長を支えることは、プラットフォーム経済の長期的な繁栄に不可欠である。 しかし、クリックスルー率予測のようなユーザーモデリングに関する広範な研究と比較すると、広告主にとって特にその多様な要求や性能の理解において、はるかに少ない注意が向けられている。 ユーザー・モデリングと異なり、広告主・モデリングは一般的に様々なタスク(例えば、広告主の支出の予測、アクティブ・レート、プロモーション商品の総印象)を伴っている。 さらに、主要なeコマースプラットフォームは、しばしば複数のマーケティングシナリオ(例えば、スポンサード検索、ディスプレイ広告、ライブストリーミング広告)を提供するが、広告主の行動は、その多くに分散する傾向がある。 これは、包括的な広告主モデリングにおいて、マルチタスクとマルチシナリオの考慮の必要性を提起する。第一に、シナリオ毎またはタスク毎のモデルが単にスケールしない;第二に、限られたデータサンプルで新しいシナリオやマイナーなシナリオをモデル化するのは特に困難;第三に、シナリオ間相関は複雑で、異なるタスクを与えられた場合があります。 そこで本研究では,複数の広告シナリオにおいて複数のタスクを同時に予測するマルチタスクメタラーニング手法(m2m)を提案する。

Advertisers play an essential role in many e-commerce platforms like Taobao and Amazon. Fulfilling their marketing needs and supporting their business growth is critical to the long-term prosperity of platform economies. However, compared with extensive studies on user modeling such as click-through rate predictions, much less attention has been drawn to advertisers, especially in terms of understanding their diverse demands and performance. Different from user modeling, advertiser modeling generally involves many kinds of tasks (e.g. predictions of advertisers' expenditure, active-rate, or total impressions of promoted products). In addition, major e-commerce platforms often provide multiple marketing scenarios (e.g. Sponsored Search, Display Ads, Live Streaming Ads) while advertisers' behavior tend to be dispersed among many of them. This raises the necessity of multi-task and multi-scenario consideration in comprehensive advertiser modeling, which faces the following challenges: First, one model per scenario or per task simply doesn't scale; Second, it is particularly hard to model new or minor scenarios with limited data samples; Third, inter-scenario correlations are complicated, and may vary given different tasks. To tackle these challenges, we propose a multi-scenario multi-task meta learning approach (M2M) which simultaneously predicts multiple tasks in multiple advertising scenarios.
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Jixiang Li, Ji Liu, Ce Zhang and Bin Cui(参考訳) 機械学習の需要と複雑さは、ハイパーパラメータチューニングシステムにプレッシャーをかけている。モデルの評価コストは増え続けているが、最先端のスケーラビリティは重要なボトルネックになりつつある。 本稿では,実運用環境におけるハイパーパラメータチューニングの運用経験と既存システムの限界に触発されて,高効率で堅牢な分散ハイパーパラメータチューニングフレームワークであるHyper-Tuneを提案する。 既存のシステムと比較して、hyper-tuneは(1)自動リソース割り当て、(2)非同期スケジューリング、(3)マルチフィデリティオプティマイザなど、複数のシステム最適化を強調する。 ベンチマークデータセットと大規模実世界のデータセットを大規模に評価する。 これらの最適化の助けを借りて、Hyper-Tuneは、XGBoost、CNN、RNN、およびニューラルネットワークのためのいくつかのアーキテクチャハイパーパラメータを含む幅広いシナリオにおいて、競争力のあるハイパーパラメータチューニングシステムより優れています。 最先端のBOHBとA-BOHBと比較すると、Hyper-Tuneは最大11.2倍と5.1倍のスピードアップを達成した。

The ever-growing demand and complexity of machine learning are putting pressure on hyper-parameter tuning systems: while the evaluation cost of models continues to increase, the scalability of state-of-the-arts starts to become a crucial bottleneck. In this paper, inspired by our experience when deploying hyper-parameter tuning in a real-world application in production and the limitations of existing systems, we propose Hyper-Tune, an efficient and robust distributed hyper-parameter tuning framework. Compared with existing systems, Hyper-Tune highlights multiple system optimizations, including (1) automatic resource allocation, (2) asynchronous scheduling, and (3) multi-fidelity optimizer. We conduct extensive evaluations on benchmark datasets and a large-scale real-world dataset in production. Empirically, with the aid of these optimizations, Hyper-Tune outperforms competitive hyper-parameter tuning systems on a wide range of scenarios, including XGBoost, CNN, RNN, and some architectural hyper-parameters for neural networks. Compared with the state-of-the-art BOHB and A-BOHB, Hyper-Tune achieves up to 11.2x and 5.1x speedups, respectively.
Xu Liu, Wei Peng, Zhiqiang Gong, Weien Zhou, Wen Yao(参考訳) 熱源系(tfi-hss)の温度場インバージョンはシステムの健全性を監視するのに不可欠である。 TFI-HSSを解くために補間などの手法が提案されているが、既存の手法ではデータ制約と物理制約の相関を無視しており、精度は低い。 本研究では,TFI-HSSタスクを解く物理インフォームドニューラルネットワークを用いた温度場インバージョン法(PINN-TFI)と,CMCN-PSO法を用いてノイズ観測の最適位置を選択する係数行列条件数に基づく位置選択法(CMCN-PSO)を開発する。 TFI-HSSタスクに対して、PINN-TFI法は損失関数に制約項を符号化し、損失関数を最小化する最適化問題に変換する。 さらに, PINN-TFI法では, ノイズ観測が再現性能に著しく影響を及ぼすことがわかった。 ノイズ観測の影響を軽減するため,CMCN-PSO法を提案し,観測条件数を用いて位置を評価する。 その結果, PINN-TFI法は予測精度を大幅に向上し, CMCN-PSO法はより堅牢な温度場を得るのに優れた位置を見出すことができた。

Temperature field inversion of heat-source systems (TFI-HSS) with limited observations is essential to monitor the system health. Although some methods such as interpolation have been proposed to solve TFI-HSS, those existing methods ignore correlations between data constraints and physics constraints, causing the low precision. In this work, we develop a physics-informed neural network-based temperature field inversion (PINN-TFI) method to solve the TFI-HSS task and a coefficient matrix condition number based position selection of observations (CMCN-PSO) method to select optima positions of noise observations. For the TFI-HSS task, the PINN-TFI method encodes constrain terms into the loss function, thus the task is transformed into an optimization problem of minimizing the loss function. In addition, we have found that noise observations significantly affect reconstruction performances of the PINN-TFI method. To alleviate the effect of noise observations, the CMCN-PSO method is proposed to find optimal positions, where the condition number of observations is used to evaluate positions. The results demonstrate that the PINN-TFI method can significantly improve prediction precisions and the CMCN-PSO method can find good positions to acquire a more robust temperature field.
Jun Otsuka, Hayato Saigo(参考訳) 離散変数上の異なるが同型な非巡回グラフを持つ因果モデルの同値性を決定するための圏論的基準を開発する。 jacobs et al. (2019) に従えば、因果モデルは因果文字列ダイアグラムの確率的解釈として定義され、すなわち "`syntactic''' の圏 $\textsf{syn}_g$ からグラフ $g$ の圏 $\textsf{stoch}$ of finite set and stochastic matrices への関手である。 因果モデルの同値性は、それぞれ$\phi$-abstraction と$\phi$-equivalence と呼ばれる2つのそのような関手の間の自然な変換または同型によって定義される。 あるモデルが別のモデルの$\Phi$-abstractionであるとき、前者の介入計算は、連続的に後者のモデルに変換可能であることが示されている。 また、変換が決定論的であるとき、モデルが$\Phi$-abstractionを許容する条件も特定する。

We develop a category-theoretic criterion for determining the equivalence of causal models having different but homomorphic directed acyclic graphs over discrete variables. Following Jacobs et al. (2019), we define a causal model as a probabilistic interpretation of a causal string diagram, i.e., a functor from the ``syntactic'' category $\textsf{Syn}_G$ of graph $G$ to the category $\textsf{Stoch}$ of finite sets and stochastic matrices. The equivalence of causal models is then defined in terms of a natural transformation or isomorphism between two such functors, which we call a $\Phi$-abstraction and $\Phi$-equivalence, respectively. It is shown that when one model is a $\Phi$-abstraction of another, the intervention calculus of the former can be consistently translated into that of the latter. We also identify the condition under which a model accommodates a $\Phi$-abstraction, when transformations are deterministic.
Andreas B. Ofner, Achilles Kefalas, Stefan Posch, Bernhard C. Geiger(参考訳) 本稿では,内圧データに基づいて訓練された1次元畳み込みニューラルネットワークを用いて内燃機関(ICE)のノック発生を検出する手法を提案する。 モデルアーキテクチャはノック燃焼の期待周波数特性を考慮に入れたものである。 特徴抽出を助けるため、全てのサイクルは60{\deg} CAの長い窓に短縮され、圧力トレースにそれ以上の処理は適用されなかった。 ニューラルネットワークは、複数の条件と人間の専門家が提供したラベルから、シリンダー内の圧力トレースにのみ訓練された。 最高の性能のモデルアーキテクチャは、ノックと非ノックのサイクルを区別する際に、10倍のクロスバリデーションで全てのテストセットで92%以上の精度を達成する。 各サイクルをノックと評する専門家の数でラベル付けされたマルチクラス問題では、サイクルの78%が完全にラベル付けされ、90%のサイクルが基礎真理から最も1つのクラスに分類された。 これにより,MAPO (Maximum Amplitude of Pressure Oscillation) 検出法と,以前の研究から再構成した他の基準を著しく上回った。 解析の結果,ニューラルネットワークはエンジン特性共鳴周波数と物理的に有意な特徴を学習し,理論誘導型データサイエンスアプローチを検証した。 より深い性能調査は、未確認の操作点に対する顕著な一般化能力を示している。 さらに、このモデルでは、少数の非ノックサイクルのトレーニングを通じて特徴に適応した後、不審エンジンのノックサイクルを89%の精度で分類することが判明した。 このアルゴリズムは1ミリ秒以下で個々のサイクルを分類し、エンジンのリアルタイム制御に効果的に適合する。

This paper introduces a method for the detection of knock occurrences in an internal combustion engine (ICE) using a 1D convolutional neural network trained on in-cylinder pressure data. The model architecture was based on considerations regarding the expected frequency characteristics of knocking combustion. To aid the feature extraction, all cycles were reduced to 60{\deg} CA long windows, with no further processing applied to the pressure traces. The neural networks were trained exclusively on in-cylinder pressure traces from multiple conditions and labels provided by human experts. The best-performing model architecture achieves an accuracy of above 92% on all test sets in a tenfold cross-validation when distinguishing between knocking and non-knocking cycles. In a multi-class problem where each cycle was labeled by the number of experts who rated it as knocking, 78% of cycles were labeled perfectly, while 90% of cycles were classified at most one class from ground truth. They thus considerably outperform the broadly applied MAPO (Maximum Amplitude of Pressure Oscillation) detection method, as well as other references reconstructed from previous works. Our analysis indicates that the neural network learned physically meaningful features connected to engine-characteristic resonance frequencies, thus verifying the intended theory-guided data science approach. Deeper performance investigation further shows remarkable generalization ability to unseen operating points. In addition, the model proved to classify knocking cycles in unseen engines with increased accuracy of 89% after adapting to their features via training on a small number of exclusively non-knocking cycles. The algorithm takes below 1 ms (on CPU) to classify individual cycles, effectively making it suitable for real-time engine control.
Stanislav Fort(参考訳) 近年、大規模データセットで事前トレーニングされた大規模モデルと、マルチモダリティ(multi-modality)の利用が主な原因で、ニューラルネットワークにおけるアウトオブディストリビューション(ood)入力の検出が大幅に進展している。 我々は,現在最強のOOD検出技術でさえも,深刻な敵意の脆弱性を示す。 入力画素に対する小さなターゲットの摂動によって、画像の割り当てを分布内から分布外に変更することができ、その逆も容易である。 特に, OOD CIFAR-100 対 CIFAR-10 タスク, 遠方の OOD CIFAR-100 対 SVHN タスクにおいて, 深刻な敵の脆弱性を示す。 本稿では,ソフトマックス確率の最大値(MSP),マハラノビス距離,新たに提案されたマハラノビス距離など,いくつかのポストプロセッシング手法の対角的ロバスト性について検討する。 種々の摂動強度におけるOOD検出性能の損失を比較することにより,OOD検出器のアンサンブルを用いた場合の有効効果と,他の後処理法に比べてマハラノビス距離が有効であることを示す。 また,CLIPと多モード性を用いた強いゼロショットOOD検出においても,対向的ロバスト性が著しく欠如していることが示唆された。 私たちのコードはhttps://github.com/stanislavfort/adversaries_to_OOD_detectionで利用可能です。

There has been a significant progress in detecting out-of-distribution (OOD) inputs in neural networks recently, primarily due to the use of large models pretrained on large datasets, and an emerging use of multi-modality. We show a severe adversarial vulnerability of even the strongest current OOD detection techniques. With a small, targeted perturbation to the input pixels, we can change the image assignment from an in-distribution to an out-distribution, and vice versa, easily. In particular, we demonstrate severe adversarial vulnerability on the challenging near OOD CIFAR-100 vs CIFAR-10 task, as well as on the far OOD CIFAR-100 vs SVHN. We study the adversarial robustness of several post-processing techniques, including the simple baseline of Maximum of Softmax Probabilities (MSP), the Mahalanobis distance, and the newly proposed \textit{Relative} Mahalanobis distance. By comparing the loss of OOD detection performance at various perturbation strengths, we demonstrate the beneficial effect of using ensembles of OOD detectors, and the use of the \textit{Relative} Mahalanobis distance over other post-processing methods. In addition, we show that even strong zero-shot OOD detection using CLIP and multi-modality suffers from a severe lack of adversarial robustness as well. Our code is available at https://github.com/stanislavfort/adversaries_to_OOD_detection
Giovanni De Toni, Bruno Lepri, Andrea Passerini(参考訳) ブラックボックスの機械学習モデル(例えばローン要求を拒否されるなど)によって、望ましくない決定をどう変えるかを説明するには、反ファクトの介入(望ましい結果を得るために私たちが取るべきアクションのシーケンス)を提供できることが不可欠です。 既存のソリューションは主に、その理論的根拠を説明することなく、実現可能な介入を生成することに重点を置いている。 さらに、各ユーザの最適化問題を別々に解決する必要がある。 本稿では,ユーザ記述と因果グラフから説明可能な反事実行動の列を出力するプログラムを,異なるアプローチで学習する。 我々は,プログラム合成技術,モンテカルロ木探索を併用した強化学習,ルール学習を活用し,各推奨行動の説明を抽出する。 合成および実世界のデータセットに関する実験的評価は、既存のソリューションに関してブラックボックス分類器のクエリを桁違いに減らし、解釈可能な説明でそれらを補完することで、我々のアプローチが効果的な介入を生み出す方法を示している。

Being able to provide counterfactual interventions - sequences of actions we would have had to take for a desirable outcome to happen - is essential to explain how to change an unfavourable decision by a black-box machine learning model (e.g., being denied a loan request). Existing solutions have mainly focused on generating feasible interventions without providing explanations on their rationale. Moreover, they need to solve a separate optimization problem for each user. In this paper, we take a different approach and learn a program that outputs a sequence of explainable counterfactual actions given a user description and a causal graph. We leverage program synthesis techniques, reinforcement learning coupled with Monte Carlo Tree Search for efficient exploration, and rule learning to extract explanations for each recommended action. An experimental evaluation on synthetic and real-world datasets shows how our approach generates effective interventions by making orders of magnitude fewer queries to the black-box classifier with respect to existing solutions, with the additional benefit of complementing them with interpretable explanations.
Umang Aggarwal, Adrian Popescu and C\'eline Hudelot(参考訳) 大量の注釈付きデータを想定できない場合、アクティブな学習は良い戦略です。 これは、少量の注釈付きデータ(注釈付き予算)でモデルを学習し、以前のモデルを改善し、一般化する上で最適な点群を選択することで構成される。 ディープラーニングでは、アクティブラーニングは通常、連続したディープラーニングモデルが微調整によって更新される反復的なプロセスとして実装されるが、それでも問題が発生する。 まず、注釈付き画像の最初のバッチは、深層モデルのトレーニングに十分な大きさでなければならない。 このような仮定は特に総アノテーション予算が削減された場合に強くなる。 我々は,転送学習に触発されたアプローチを用いてこの問題に取り組む。 事前学習されたモデルを特徴抽出器として使用し、アクティブイテレーション中に浅い分類器のみを学習する。 第2の問題は、ALタスクの初期モデルの確率または特徴推定の有効性である。 サンプルは、通常、最後の学習モデルのみに基づいて取得関数を使用してアノテーションに選択される。 本稿では,ALプロセスの反復性を利用してより堅牢なサンプルを抽出する新しい取得関数を提案する。 最後の2つの学習したモデル予測の間の不確実性への最大シフトがあるサンプルが好まれる。 分類空間の異なる領域からサンプルを選択するために多様化ステップを追加し,提案手法に代表性成分を導入する。 評価は、バランスのとれた3つの不均衡なデータセットによる競合メソッドに対して行われ、それらを上回る。

When we can not assume a large amount of annotated data , active learning is a good strategy. It consists in learning a model on a small amount of annotated data (annotation budget) and in choosing the best set of points to annotate in order to improve the previous model and gain in generalization. In deep learning, active learning is usually implemented as an iterative process in which successive deep models are updated via fine tuning, but it still poses some issues. First, the initial batch of annotated images has to be sufficiently large to train a deep model. Such an assumption is strong, especially when the total annotation budget is reduced. We tackle this issue by using an approach inspired by transfer learning. A pre-trained model is used as a feature extractor and only shallow classifiers are learned during the active iterations. The second issue is the effectiveness of probability or feature estimates of early models for AL task. Samples are generally selected for annotation using acquisition functions based only on the last learned model. We introduce a novel acquisition function which exploits the iterative nature of AL process to select samples in a more robust fashion. Samples for which there is a maximum shift towards uncertainty between the last two learned models predictions are favored. A diversification step is added to select samples from different regions of the classification space and thus introduces a representativeness component in our approach. Evaluation is done against competitive methods with three balanced and imbalanced datasets and outperforms them.
Yutong Dai and Brian Price and He Zhang and Chunhua Shen(参考訳) ディープ・イメージ・マッティング法は、ベンチマーク(例えば Composic-1k/alphamatting.com)でより優れた結果を得た。 しかし、トリマップへの堅牢性や異なる領域の画像への一般化など、堅牢性はまだ未定である。 トリマップの改良や、追加のデータ拡張による実世界画像へのアルゴリズムの適用を提案している作品もあるが、これらのデータ拡張を用いたベンチマークでの大幅なパフォーマンス低下は言うまでもなく、いずれも考慮されていない。 このギャップを埋めるために,マルチレベルコンテキストアセンブラと強力なデータ拡張により高ロバスト性(RMat)を実現する画像マッチング手法を提案する。 具体的には,まず,エンコーダ内のトランスフォーマーブロックと多量のグローバル情報をモデル化し,畳み込み層と組み合わせた詳細情報と,デコーダ内のアテンションブロックを組み込む低レベル機能に注目して,強力なマットングフレームワークを構築した。 そして、この強いベースラインに基づいて、現在のデータ拡張を分析し、ベースラインモデルを強化し、より一般化されたマッティング方法に貢献するために、シンプルで効果的な強力なデータ拡張を探索する。 従来の手法と比較して,提案手法はモデルサイズを小さくしたCompose-1kベンチマーク(SADが11%,Gradが27%)の最先端結果を達成するだけでなく,他のベンチマークや実世界の画像,さらには広範囲な実験による粗大なトリマップもより堅牢な一般化結果を示す。

Deep image matting methods have achieved increasingly better results on benchmarks (e.g., Composition-1k/alphamatting.com). However, the robustness, including robustness to trimaps and generalization to images from different domains, is still under-explored. Although some works propose to either refine the trimaps or adapt the algorithms to real-world images via extra data augmentation, none of them has taken both into consideration, not to mention the significant performance deterioration on benchmarks while using those data augmentation. To fill this gap, we propose an image matting method which achieves higher robustness (RMat) via multilevel context assembling and strong data augmentation targeting matting. Specifically, we first build a strong matting framework by modeling ample global information with transformer blocks in the encoder, and focusing on details in combination with convolution layers as well as a low-level feature assembling attention block in the decoder. Then, based on this strong baseline, we analyze current data augmentation and explore simple but effective strong data augmentation to boost the baseline model and contribute a more generalizable matting method. Compared with previous methods, the proposed method not only achieves state-of-the-art results on the Composition-1k benchmark (11% improvement on SAD and 27% improvement on Grad) with smaller model size, but also shows more robust generalization results on other benchmarks, on real-world images, and also on varying coarse-to-fine trimaps with our extensive experiments.
Maximilian Sch\"afer, Kun Zhao, Markus B\"uhren and Anton Kummert(参考訳) 周囲の道路利用者の将来の動きを予測することは、自動運転(AD)と様々な先進運転支援システム(ADAS)にとって決定的かつ困難な課題である。 安全な将来の軌道計画は、交通状況の理解と、そのダイナミクスの予測に大きく依存する。 課題は、複雑な運転シナリオを理解することだけでなく、明示的なモデリングでは事実上不可能である、道路ユーザと環境間の多数のインタラクションを理解することにある。 本研究では,新しい畳み込みニューラルネットワーク(cnn)とrnn(recurrent neural network)ベースのアーキテクチャを用いて,シーン内のすべての道路利用者の動きを学習し,予測することで,上記の課題に取り組む。 さらに,グリッドベースの入力・出力データ構造を利用して,道路利用者数に依存しない計算コストを計算し,提案手法の固有の特性となる。 nuScenesデータセットの評価は,我々の手法が予測ベンチマークで最先端の結果に達することを示している。

Predicting the future motion of surrounding road users is a crucial and challenging task for autonomous driving (AD) and various advanced driver-assistance systems (ADAS). Planning a safe future trajectory heavily depends on understanding the traffic scene and anticipating its dynamics. The challenges do not only lie in understanding the complex driving scenarios but also the numerous possible interactions among road users and environments, which are practically not feasible for explicit modeling. In this work, we tackle the above challenges by jointly learning and predicting the motion of all road users in a scene, using a novel convolutional neural network (CNN) and recurrent neural network (RNN) based architecture. Moreover, by exploiting grid-based input and output data structures, the computational cost is independent of the number of road users and multi-modal predictions become inherent properties of our proposed method. Evaluation on the nuScenes dataset shows that our approach reaches state-of-the-art results in the prediction benchmark.
Emanuel Ben-Baruch, Matan Karklinsky, Yossi Biton, Avi Ben-Cohen, Hussam Lawen, Nadav Zamir(参考訳) 表現知識蒸留は、あるモデルから別のモデルへ豊かな情報を転送することを目的としている。 表現蒸留の現在のアプローチは、主にモデルの埋め込みベクトル間の距離メトリックの直接最小化に焦点を当てている。 このような直接的な方法は、表現ベクトルに埋め込まれた高次依存関係の転送や、教師と生徒モデルの容量ギャップの処理に制限される。 本稿では,教師と学生間の分類器共有を用いた表現蒸留の促進のための2つのアプローチを提案する。 具体的には,まず,教師の分類器と生徒の背骨を連結し,そのパラメータを凍結することが,表現蒸留のプロセスに有益であることを示し,一貫した改善をもたらす。 そこで本研究では,教師モデルを限られた能力を持つ生徒に調整する代替手法を提案する。 このアプローチは競合し、場合によっては最初の方法を超えます。 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクにおける提案手法の有効性について検討した。 例えば、mobilefacenet モデルの ijb-c データセット上での顔検証を行うための最先端のパフォーマンスを実現する: tar@(far=1e-5)=93.7\%。 コードはhttps://github.com/Alibaba-MIIL/HeadSharingKDで入手できる。

Representation knowledge distillation aims at transferring rich information from one model to another. Current approaches for representation distillation mainly focus on the direct minimization of distance metrics between the models' embedding vectors. Such direct methods may be limited in transferring high-order dependencies embedded in the representation vectors, or in handling the capacity gap between the teacher and student models. In this paper, we introduce two approaches for enhancing representation distillation using classifier sharing between the teacher and student. Specifically, we first show that connecting the teacher's classifier to the student backbone and freezing its parameters is beneficial for the process of representation distillation, yielding consistent improvements. Then, we propose an alternative approach that asks to tailor the teacher model to a student with limited capacity. This approach competes with and in some cases surpasses the first method. Via extensive experiments and analysis, we show the effectiveness of the proposed methods on various datasets and tasks, including image classification, fine-grained classification, and face verification. For example, we achieve state-of-the-art performance for face verification on the IJB-C dataset for a MobileFaceNet model: TAR@(FAR=1e-5)=93.7\%. Code is available at https://github.com/Alibaba-MIIL/HeadSharingKD.
Kunhao Yuan, Gerald Schaefer, Yu-Kun Lai, Yifan Wang, Xiyao Liu, Lin Guan, Hui Fang(参考訳) 教師付きセマンティックセグメンテーション(WSSS)は、教師付きセマンティックセグメンテーション(SSS)メソッドで必要とされるピクセルレベルのアノテーションではなく、画像レベルのアノテーションのような弱いラベルにのみ依存するため、非常に人気がある。 アノテーションのコストが大幅に削減されたにもかかわらず、WSSSから学んだ典型的な特徴表現は、オブジェクトの健全な部分を表すだけであり、トレーニング中のガイダンスの弱いため、SSSに比べて信頼性が低い。 本稿では,画像,領域,画素,オブジェクト境界レベルでのコントラストペアの類似性と類似性を生かして,機能表現の強化とwsss性能の向上を図るための,新しいマルチストラテジーコントラスト学習(muscle)フレームワークを提案する。 本手法の有効性を実証し, 広く使用されているPASCAL VOC 2012データセットにおいて, MuSCLe が現状よりも優れていることを示す。

Weakly supervised semantic segmentation (WSSS) has gained significant popularity since it relies only on weak labels such as image level annotations rather than pixel level annotations required by supervised semantic segmentation (SSS) methods. Despite drastically reduced annotation costs, typical feature representations learned from WSSS are only representative of some salient parts of objects and less reliable compared to SSS due to the weak guidance during training. In this paper, we propose a novel Multi-Strategy Contrastive Learning (MuSCLe) framework to obtain enhanced feature representations and improve WSSS performance by exploiting similarity and dissimilarity of contrastive sample pairs at image, region, pixel and object boundary levels. Extensive experiments demonstrate the effectiveness of our method and show that MuSCLe outperforms the current state-of-the-art on the widely used PASCAL VOC 2012 dataset.
Alexandros Haliassos, Rodrigo Mira, Stavros Petridis, Maja Pantic(参考訳) 顔操作ビデオの検出における最も差し迫った課題の1つは、訓練中に見られない偽造法を一般化することであり、圧縮などの一般的な腐敗下では有効である。 本稿では,自然の表情や行動に関する情報を豊富に含み,オンラインで簡単に入手できる実話の映像を用いて,この問題に取り組むことができるか疑問を呈する。 本手法は realforensics と呼ばれ, 2 段階からなる。 まず,実映像における視覚と聴覚のモダリティの自然な対応を利用して,顔の動きや表情,アイデンティティなどの要因を捉えた時間的に密接な映像表現を自己教師ありのクロスモーダル方式で学習する。 第二に、これらの学習された表現を、通常の二分法フォージェリ分類タスクとともに、フォージェリ検出器によって予測されるターゲットとして使用する。 本手法は,クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現し,その性能に寄与する要因について検討する。 以上の結果から,より堅牢な顔偽造検出装置の開発には,自然な映像やラベルなし動画の利用が有望な方向であることが示唆された。

One of the most pressing challenges for the detection of face-manipulated videos is generalising to forgery methods not seen during training while remaining effective under common corruptions such as compression. In this paper, we question whether we can tackle this issue by harnessing videos of real talking faces, which contain rich information on natural facial appearance and behaviour and are readily available in large quantities online. Our method, termed RealForensics, consists of two stages. First, we exploit the natural correspondence between the visual and auditory modalities in real videos to learn, in a self-supervised cross-modal manner, temporally dense video representations that capture factors such as facial movements, expression, and identity. Second, we use these learned representations as targets to be predicted by our forgery detector along with the usual binary forgery classification task; this encourages it to base its real/fake decision on said factors. We show that our method achieves state-of-the-art performance on cross-manipulation generalisation and robustness experiments, and examine the factors that contribute to its performance. Our results suggest that leveraging natural and unlabelled videos is a promising direction for the development of more robust face forgery detectors.
Mihee Lee, Samuel S. Sohn, Seonghyeon Moon, Sejong Yoon, Mubbasir Kapadia, Vladimir Pavlovic(参考訳) 複雑な場面において、複数のエージェント(歩行者や車両など)が、多様でしばしば未知の目標を達成しながら互いに環境と相互作用する正確な長期軌道予測は、難しい確率的予測問題である。 本研究では,多要素多要素予測アーキテクチャを用いた長期不確定軌道予測タスクに取り組む条件付きvaesのカスケードに基づく,新しい確率的モデリングフレームワークであるmuseを提案する。 マクロ段階では、モデルが2つの重要な要因(環境とエージェントの動き)の合同ピクセル空間表現を学習し、長期および短期の運動目標を予測する。 マイクロステージは、個々のエージェント軌跡の予測のための微細な時空間表現を学習する。 2つの段階にわたるVAEのバックボーンは、両方の粒度のレベルでの関節の不確かさを自然に説明することができる。 その結果、MUSEは現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。 これらの主張は、nuScenesとSDDベンチマークに関する包括的な実験と、複雑なエージェント環境相互作用シナリオにおけるモデルの予測能力に挑戦する新しい合成データセットであるPFSDを通じて実証する。

Accurate long-term trajectory prediction in complex scenes, where multiple agents (e.g., pedestrians or vehicles) interact with each other and the environment while attempting to accomplish diverse and often unknown goals, is a challenging stochastic forecasting problem. In this work, we propose MUSE, a new probabilistic modeling framework based on a cascade of Conditional VAEs, which tackles the long-term, uncertain trajectory prediction task using a coarse-to-fine multi-factor forecasting architecture. In its Macro stage, the model learns a joint pixel-space representation of two key factors, the underlying environment and the agent movements, to predict the long and short-term motion goals. Conditioned on them, the Micro stage learns a fine-grained spatio-temporal representation for the prediction of individual agent trajectories. The VAE backbones across the two stages make it possible to naturally account for the joint uncertainty at both levels of granularity. As a result, MUSE offers diverse and simultaneously more accurate predictions compared to the current state-of-the-art. We demonstrate these assertions through a comprehensive set of experiments on nuScenes and SDD benchmarks as well as PFSD, a new synthetic dataset, which challenges the forecasting ability of models on complex agent-environment interaction scenarios.
Rui Guo, Jasmine Collins, Oscar de Lima, Andrew Owens(参考訳) シーン内の3Dオブジェクトをカモフラージュする手法を提案する。 物体の形状や視点の分布を考慮に入れれば、検出が困難になるようなテクスチャを推定する。 この課題をうまく解決するには、各視点によって課される非常に矛盾する制約を同時に処理しながら、シーンからテクスチャを正確に再現できるモデルが必要である。 これらの課題をテクスチャフィールドと逆学習に基づくモデルで解決する。 本モデルは,入力シーン内のランダムなサンプル位置と視点から,様々な物体形状をカモフラージュすることを学び,複雑な物体形状を隠蔽する問題に最初に対処する。 人間のビジュアルサーチ研究により、推定されたテクスチャは、従来の方法よりもかなりよくオブジェクトを隠していることがわかった。 プロジェクトサイト: https://rrrrrguo.github.io/ganmouflage/

We propose a method that learns to camouflage 3D objects within scenes. Given an object's shape and a distribution of viewpoints from which it will be seen, we estimate a texture that will make it difficult to detect. Successfully solving this task requires a model that can accurately reproduce textures from the scene, while simultaneously dealing with the highly conflicting constraints imposed by each viewpoint. We address these challenges with a model based on texture fields and adversarial learning. Our model learns to camouflage a variety of object shapes from randomly sampled locations and viewpoints within the input scene, and is the first to address the problem of hiding complex object shapes. Using a human visual search study, we find that our estimated textures conceal objects significantly better than previous methods. Project site: https://rrrrrguo.github.io/ganmouflage/
Sai Hemanth Kasaraneni(参考訳) ビデオ信号の3次元の複雑さを考えると、データ空間に関わる大きな確率性のため、堅牢で多様なganベースのビデオ生成モデルのトレーニングは面倒である。 データの絡み合った表現を学習することは、ロバスト性を改善し、サンプリングプロセスの制御を提供するのに役立つ。 映像生成では, 動きや外観を直交情報として考慮し, 効率的に切り離すアーキテクチャを設計することで, この分野の進歩が進んでいる。 これらのアプローチは、潜伏空間における外見と運動符号を分解するためにジェネレータに構造上の優先順位を課す手作りアーキテクチャに依存している。 近年のオートエンコーダベースの画像生成の進歩に触発されて,avlae (adversarial video latent autoencoder) という2つのストリーム型潜在オートエンコーダを提案する。 特に,ビデオジェネレータの動作および出現遅延ベクトルを,対向的な設定で自動符号化する手法を提案する。 提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことができることを示す。 定性的および定量的な実験により,本手法の有効性が実証された。

Given the three dimensional complexity of a video signal, training a robust and diverse GAN based video generative model is onerous due to large stochasticity involved in data space. Learning disentangled representations of the data help to improve robustness and provide control in the sampling process. For video generation, there is a recent progress in this area by considering motion and appearance as orthogonal information and designing architectures that efficiently disentangle them. These approaches rely on handcrafting architectures that impose structural priors on the generator to decompose appearance and motion codes in the latent space. Inspired from the recent advancements in the autoencoder based image generation, we present AVLAE (Adversarial Video Latent AutoEncoder) which is a two stream latent autoencoder where the video distribution is learned by adversarial training. In particular, we propose to autoencode the motion and appearance latent vectors of the video generator in the adversarial setting. We demonstrate that our approach learns to disentangle motion and appearance codes even without the explicit structural composition in the generator. Several experiments with qualitative and quantitative results demonstrate the effectiveness of our method.
Hengcan Shi, Munawar Hayat, Jianfei Cai(参考訳) 表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。 従来の参照接地における面倒なアノテーションを避けるために、トレーニングデータに対応のない複数の画像やクエリのみを含む未ペア参照接地を導入する。 画像テキストマッチングの課題や、非ペアデータによるトップダウンガイダンスの欠如などにより、未ペア参照グラウンドに対する既存のソリューションはまだ予備的だ。 本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。 特に,クエリ特有の視覚的アテンションマップを生成することで,トップダウン視点を導入するクエリアウェアアテンションマップ(qam)モジュールを設計した。 クロスモーダルオブジェクトマッチング(COM)モジュールがさらに導入され、ボトムアップの観点からターゲットオブジェクトを予測するために、最近登場した画像テキストマッチング事前訓練モデルであるCLIPを利用する。 トップダウンとボトムアップの予測は、類似性ファンジョン(SF)モジュールを介して統合される。 また,事前学習した知識を目標のデータセットやタスクに適応させるために,未学習のトレーニングデータを活用する知識適応マッチング(KAM)モジュールを提案する。 実験によると、我々のフレームワークは、2つの人気のある接地データセットで、以前の作業よりも6.55%と9.94%上回っている。

Referring expression grounding is an important and challenging task in computer vision. To avoid the laborious annotation in conventional referring grounding, unpaired referring grounding is introduced, where the training data only contains a number of images and queries without correspondences. The few existing solutions to unpaired referring grounding are still preliminary, due to the challenges of learning image-text matching and lack of the top-down guidance with unpaired data. In this paper, we propose a novel bidirectional cross-modal matching (BiCM) framework to address these challenges. Particularly, we design a query-aware attention map (QAM) module that introduces top-down perspective via generating query-specific visual attention maps. A cross-modal object matching (COM) module is further introduced, which exploits the recently emerged image-text matching pretrained model, CLIP, to predict the target objects from a bottom-up perspective. The top-down and bottom-up predictions are then integrated via a similarity funsion (SF) module. We also propose a knowledge adaptation matching (KAM) module that leverages unpaired training data to adapt pretrained knowledge to the target dataset and task. Experiments show that our framework outperforms previous works by 6.55% and 9.94% on two popular grounding datasets.
Hengcan Shi, Munawar Hayat, Yicheng Wu, Jianfei Cai(参考訳) オブジェクトの提案生成はコンピュータビジョンにおいて重要かつ基本的なタスクである。 本稿では,教師なしオープンカテゴリオブジェクト提案生成のための提案CLIPを提案する。 多くのバウンディングボックスアノテーションや/または限られたオブジェクトカテゴリの提案しか生成できない以前の作業とは異なり、提案CLIPは、CLIP(Contrastive Language-image pre-training) cueを利用して、アノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できます。 まず,教師なしのオープンカテゴリ提案生成のためのクリップを分析し,提案の選択に関する経験的分析に基づいて客観性スコアを設計する。 次に、CLIPキューとマージされた提案の制限を解決するために、グラフベースのマージモジュールが提案されている。 最後に,クリップキューに基づく擬似ラベルを抽出し,軽量ネットワークを訓練し,提案をさらに洗練する提案回帰モジュールを提案する。 PASCAL VOC、COCO、Visual Genomeのデータセットに対する大規模な実験により、提案CLIPは従来の最先端手法よりも提案をより良く生成できることが示された。 我々の提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。

Object proposal generation is an important and fundamental task in computer vision. In this paper, we propose ProposalCLIP, a method towards unsupervised open-category object proposal generation. Unlike previous works which require a large number of bounding box annotations and/or can only generate proposals for limited object categories, our ProposalCLIP is able to predict proposals for a large variety of object categories without annotations, by exploiting CLIP (contrastive language-image pre-training) cues. Firstly, we analyze CLIP for unsupervised open-category proposal generation and design an objectness score based on our empirical analysis on proposal selection. Secondly, a graph-based merging module is proposed to solve the limitations of CLIP cues and merge fragmented proposals. Finally, we present a proposal regression module that extracts pseudo labels based on CLIP cues and trains a lightweight network to further refine proposals. Extensive experiments on PASCAL VOC, COCO and Visual Genome datasets show that our ProposalCLIP can better generate proposals than previous state-of-the-art methods. Our ProposalCLIP also shows benefits for downstream tasks, such as unsupervised object detection.
Zhengyuan Yang, Jingen Liu, Jing Huang, Xiaodong He, Tao Mei, Chenliang Xu, Jiebo Luo(参考訳) 本研究では,過去を観察する上での有効な行動ステップを予測し,教育活動予測の課題について検討する。 アクションラベル予測を目標とする従来の予測タスクとは違って,今後のアクションステップの解釈と正確な記述を提供する自然言語出力の生成を目標としています。 教示ビデオから抽出された意味情報がないため、これは難しい課題である。 この課題を克服するために, 関連する外部テキスト知識を活用し, 視覚予測タスクを支援する新しい知識蒸留フレームワークを提案する。 しかし、従来の知識蒸留技術は一般に同じモード内で情報を転送する。 蒸留過程における視覚とテキストのモーダルのギャップを埋めるため,提案するクロスモーダル蒸留損失を伴う不均一なモーダルにおける教師と生徒の知識蒸留を容易にする,新しいクロスモーダルコントラスト蒸留(ccd)スキームを考案する。 本手法をtasty videoデータセット上で評価する。 CCDは、BLEU4の40.2%という大きなマージンで視覚的単独の学生モデルの予測性能を向上させる。 我々のアプローチは最先端のアプローチを大きく上回っている。

In this study, we aim to predict the plausible future action steps given an observation of the past and study the task of instructional activity anticipation. Unlike previous anticipation tasks that aim at action label prediction, our work targets at generating natural language outputs that provide interpretable and accurate descriptions of future action steps. It is a challenging task due to the lack of semantic information extracted from the instructional videos. To overcome this challenge, we propose a novel knowledge distillation framework to exploit the related external textual knowledge to assist the visual anticipation task. However, previous knowledge distillation techniques generally transfer information within the same modality. To bridge the gap between the visual and text modalities during the distillation process, we devise a novel cross-modal contrastive distillation (CCD) scheme, which facilitates knowledge distillation between teacher and student in heterogeneous modalities with the proposed cross-modal distillation loss. We evaluate our method on the Tasty Videos dataset. CCD improves the anticipation performance of the visual-alone student model by a large margin of 40.2% relatively in BLEU4. Our approach also outperforms the state-of-the-art approaches by a large margin.
Ying Wang, Yuexing Peng, Xinran Liu, Wei Li, George C. Alexandropoulos, Junchuan Yu, Daqing Ge, Wei Xiang(参考訳) 高分解能リモートセンシング画像(hrsis)から道路を抽出することは、自動運転、経路計画、道路ナビゲーションなど、さまざまなアプリケーションにおいて不可欠である。 長くて細い形状と、植生や建物によって引き起こされる日陰のため、小型道路の識別は困難である。 本稿では,複数規模の道路がhrsiに共存している場合の小型道路抽出の信頼性と精度を向上させるため,デュアルデコーダu-net(ddu-net)と呼ばれる拡張深層ニューラルネットワークモデルを提案する。 u-netモデルに動機付けられた小さなデコーダが追加され、より詳細な機能のためにデュアルデコーダ構造が形成される。 さらに、エンコーダとデコーダの間に拡張畳み込みアテンションモジュール(dcam)を導入し、受容磁場を増加させ、拡張畳み込みとグローバル平均プーリングをカスケードすることでマルチスケールな特徴を蒸留する。 畳み込みブロックアテンションモジュール (CBAM) は、より注意を意識した特徴を捉えるために、並列拡張畳み込みとプーリングブランチに埋め込まれている。 実験の結果、マサチューセッツ・ローズのデータセットでは、提案されたモデルが最先端の密度指数、deeplabv3+、d-linknetを6.5%、miou平均交点で3.3%、d-linknetが2.1%、f1スコアで4%、4.8%、3.1%上回った。 本モデルの有効性を検証するため,アブレーションとヒートマップ解析を行った。

Extracting roads from high-resolution remote sensing images (HRSIs) is vital in a wide variety of applications, such as autonomous driving, path planning, and road navigation. Due to the long and thin shape as well as the shades induced by vegetation and buildings, small-sized roads are more difficult to discern. In order to improve the reliability and accuracy of small-sized road extraction when roads of multiple sizes coexist in an HRSI, an enhanced deep neural network model termed Dual-Decoder-U-Net (DDU-Net) is proposed in this paper. Motivated by the U-Net model, a small decoder is added to form a dual-decoder structure for more detailed features. In addition, we introduce the dilated convolution attention module (DCAM) between the encoder and decoders to increase the receptive field as well as to distill multi-scale features through cascading dilated convolution and global average pooling. The convolutional block attention module (CBAM) is also embedded in the parallel dilated convolution and pooling branches to capture more attention-aware features. Extensive experiments are conducted on the Massachusetts Roads dataset with experimental results showing that the proposed model outperforms the state-of-the-art DenseUNet, DeepLabv3+ and D-LinkNet by 6.5%, 3.3%, and 2.1% in the mean Intersection over Union (mIoU), and by 4%, 4.8%, and 3.1% in the F1 score, respectively. Both ablation and heatmap analyses are presented to validate the effectiveness of the proposed model.
Xinyi Zou, Yan Yan, Jing-Hao Xue, Si Chen, Hanzi Wang(参考訳) 人間の感情には基本的な表情と複合表情が含まれる。 しかし,現在の顔表情認識(FER)の研究は主に基本的表現に焦点を当てており,現実的なシナリオにおける人間の感情の多様性に対処できない。 一方、複合ferに関する既存の研究は豊富なラベル付き複合表現訓練データに大きく依存しており、しばしば心理学の専門的な指導の下で精力的に収集される。 本稿では,対象ドメインからの新規クラスの画像のみを参照として,クロスドメイン数ショット学習環境における複合FERについて検討する。 特に,分かりやすい基本表現データセットに基づいて学習したモデルを用いて,未知の複合表現を同定することを目的とする。 FERタスクにおける制限付きベースクラスの問題を軽減するため,感情分岐と類似性分岐からなる新しい感情ガイド型類似ネットワーク(EGS-Net)を2段階学習フレームワークに基づいて提案する。 具体的には、第1段階では、類似性ブランチと感情ブランチをマルチタスク形式で共同で訓練する。 感情分岐の規則化により、類似性分岐が異なるエピソード間で重なり合うサンプルベースクラスに過度に適合することを防止する。 第2段階では、感情分枝と類似度分枝とが「二学生ゲーム」をプレイして互いに交互に学習し、見知らぬ複合表現に対する類似度分枝の推論能力をさらに向上させる。 In-the-labとin-the-wildの複合表現データセットの実験結果から,提案手法がいくつかの最先端手法に対して優れていることを示す。

Human emotions involve basic and compound facial expressions. However, current research on facial expression recognition (FER) mainly focuses on basic expressions, and thus fails to address the diversity of human emotions in practical scenarios. Meanwhile, existing work on compound FER relies heavily on abundant labeled compound expression training data, which are often laboriously collected under the professional instruction of psychology. In this paper, we study compound FER in the cross-domain few-shot learning setting, where only a few images of novel classes from the target domain are required as a reference. In particular, we aim to identify unseen compound expressions with the model trained on easily accessible basic expression datasets. To alleviate the problem of limited base classes in our FER task, we propose a novel Emotion Guided Similarity Network (EGS-Net), consisting of an emotion branch and a similarity branch, based on a two-stage learning framework. Specifically, in the first stage, the similarity branch is jointly trained with the emotion branch in a multi-task fashion. With the regularization of the emotion branch, we prevent the similarity branch from overfitting to sampled base classes that are highly overlapped across different episodes. In the second stage, the emotion branch and the similarity branch play a "two-student game" to alternately learn from each other, thereby further improving the inference ability of the similarity branch on unseen compound expressions. Experimental results on both in-the-lab and in-the-wild compound expression datasets demonstrate the superiority of our proposed method against several state-of-the-art methods.
Yuwen Li, Zhengguo Li, Chaobing Zheng and Shiqian Wu(参考訳) フォーカス(sff)技術による既存の形状は、複数の焦点画像から深度エッジと細部構造を保存できない。 さらに、マルチフォーカス画像のシーケンスにおけるノイズは深度マップの精度に影響する。 本稿では,適応重み付きガイド画像フィルタリング(AWGIF)に基づくSFFのための新しい深度強調アルゴリズムを提案する。 AWGIFは、従来のSFFによって推定される初期深度マップをベース層と詳細層に分解する。 洗練された深度マップにおいてエッジを正確に保存するために、多焦点画像シーケンスから誘導画像を構築し、awgifの係数を利用して細かな深さ詳細を高めながらノイズを抑制する。 実物および合成物に関する実験は、提案アルゴリズムの反雑音に対する優位性、および既存の手法と比較して深度エッジと微細構造を保存できることを実証している。

Existing shape from focus (SFF) techniques cannot preserve depth edges and fine structural details from a sequence of multi-focus images. Moreover, noise in the sequence of multi-focus images affects the accuracy of the depth map. In this paper, a novel depth enhancement algorithm for the SFF based on an adaptive weighted guided image filtering (AWGIF) is proposed to address the above issues. The AWGIF is applied to decompose an initial depth map which is estimated by the traditional SFF into a base layer and a detail layer. In order to preserve the edges accurately in the refined depth map, the guidance image is constructed from the multi-focus image sequence, and the coefficient of the AWGIF is utilized to suppress the noise while enhancing the fine depth details. Experiments on real and synthetic objects demonstrate the superiority of the proposed algorithm in terms of anti-noise, and the ability to preserve depth edges and fine structural details compared to existing methods.
HaidongWang, Zhiyong Li, Yaping Li, Ke Nai, Ming Wen(参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、コンピュータビジョンとインテリジェントな車両プラットフォームのための長年のタスクである。 現在、主要なパラダイムはトラッキング・バイ・検出であり、このパラダイムの主な難しさは、現在の候補検出と過去のトラックレットを関連付ける方法である。 しかし、motのシナリオでは、各履歴トラックレットはオブジェクトシーケンスで構成され、各候補検出は単なるフラットイメージであり、オブジェクトシーケンスの時間的特徴を欠いている。 現在の候補検出と履歴トラックレットの特徴の違いは、オブジェクトの関連性をはるかに難しくする。 そこで,本稿では,現在候補検出と歴史的シーケンス間の空間時間表現を相互表現空間で学習する空間-時間間相互表現学習(sture)手法を提案する。 歴史的トラケレットの場合、検出学習ネットワークは、相互表現空間におけるシーケンス学習ネットワークの表現と一致せざるを得ない。 提案手法は,オブジェクト連想における各種設計損失を用いて,検出とシーケンス表現をより識別する手法である。 その結果、現在の検出特徴を強化するために時空間特徴を相互に学習し、特徴差を緩和することができる。 STUREのロバスト性を証明するために、パブリックMOTチャレンジベンチマークに適用され、ID保存メトリクスに基づく様々な最先端のオンラインMOTトラッカーと比較してよく機能する。

Online multi-object tracking (MOT) is a longstanding task for computer vision and intelligent vehicle platform. At present, the main paradigm is tracking-by-detection, and the main difficulty of this paradigm is how to associate the current candidate detection with the historical tracklets. However, in the MOT scenarios, each historical tracklet is composed of an object sequence, while each candidate detection is just a flat image, which lacks the temporal features of the object sequence. The feature difference between current candidate detection and historical tracklets makes the object association much harder. Therefore, we propose a Spatial-Temporal Mutual {Representation} Learning (STURE) approach which learns spatial-temporal representations between current candidate detection and historical sequence in a mutual representation space. For the historical trackelets, the detection learning network is forced to match the representations of sequence learning network in a mutual representation space. The proposed approach is capable of extracting more distinguishing detection and sequence representations by using various designed losses in object association. As a result, spatial-temporal feature is learned mutually to reinforce the current detection features, and the feature difference can be relieved. To prove the robustness of the STURE, it is applied to the public MOT challenge benchmarks and performs well compared with various state-of-the-art online MOT trackers based on identity-preserving metrics.
Kathrin Blagec, Jakob Kraiger, Wolfgang Fr\"uhwirt, Matthias Samwald(参考訳) モデルパフォーマンスの評価と比較を可能にする公開可能なベンチマークは、人工知能(AI)の進歩の重要な要因である。 近年のAI能力の進歩は、医療専門家の認知プロセスを支援し、強化することで医療実践を変革する可能性を秘めているが、AIベンチマークによる臨床関連タスクのカバレッジはほとんど不明である。 さらに、システム化されたメタ情報がないため、臨床AI研究者は、臨床領域に関連するデータセットやベンチマークデータセットのアクセシビリティ、スコープ、コンテンツ、その他の特性を迅速に決定できる。 これらの問題に対処するため,文献とオンラインリソースの体系的レビューに基づいて,広範な臨床・生物医学自然言語処理分野(nlp)に関連するデータセットとベンチマークの包括的カタログを作成・公開した。 450のNLPデータセットを手動で体系化し、ターゲットタスク、臨床応用性、データタイプ、パフォーマンスメトリクス、アクセシビリティとライセンシング情報、データ分割の可用性など、豊富なメタデータで注釈付けした。 続いて私たちは、AIベンチマークデータセットでカバーされたタスクと、医療従事者が以前の実証研究で非常に望ましい自動化ターゲットとして報告した関連するタスクを比較した。 我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。 特に、日常的なドキュメントや患者データ管理ワークフローに関連するタスクは、重要な関連するワークロードにもかかわらず表現されない。 したがって、現在利用可能なAIベンチマークは、臨床環境でAI自動化の望ましい目標と不適切に一致しており、これらのギャップを埋めるために新しいベンチマークを作成する必要がある。

Publicly accessible benchmarks that allow for assessing and comparing model performances are important drivers of progress in artificial intelligence (AI). While recent advances in AI capabilities hold the potential to transform medical practice by assisting and augmenting the cognitive processes of healthcare professionals, the coverage of clinically relevant tasks by AI benchmarks is largely unclear. Furthermore, there is a lack of systematized meta-information that allows clinical AI researchers to quickly determine accessibility, scope, content and other characteristics of datasets and benchmark datasets relevant to the clinical domain. To address these issues, we curated and released a comprehensive catalogue of datasets and benchmarks pertaining to the broad domain of clinical and biomedical natural language processing (NLP), based on a systematic review of literature and online resources. A total of 450 NLP datasets were manually systematized and annotated with rich metadata, such as targeted tasks, clinical applicability, data types, performance metrics, accessibility and licensing information, and availability of data splits. We then compared tasks covered by AI benchmark datasets with relevant tasks that medical practitioners reported as highly desirable targets for automation in a previous empirical study. Our analysis indicates that AI benchmarks of direct clinical relevance are scarce and fail to cover most work activities that clinicians want to see addressed. In particular, tasks associated with routine documentation and patient data administration workflows are not represented despite significant associated workloads. Thus, currently available AI benchmarks are improperly aligned with desired targets for AI automation in clinical settings, and novel benchmarks should be created to fill these gaps.
Xiuyi Fan, Francesca Toni(参考訳) 自動化された意思決定の透明性は、インテリジェントなシステムのデプロイに不可欠であると広く認識されており、意思決定が"良い"理由と、この透明性を達成するための方法ではない理由を説明している。 我々は「良い」決定が代替に等しい2種類の意思決定を考える。 i)「最善」の目標を達成し、 (ii)「最も望ましい」目標の達成。 次に、それぞれの変種と「善」の概念(文献上の多くの既存の概念に対応する)について、異なるニーズと能力を持つ聴衆の選択肢の選択を正当化する2つの形式の説明を定義する: リーンの説明、満足する目標の観点、そして「善」の概念、代替決定、議論的な説明、そして、選択に至る決定過程を反映して、リーンの説明に対応する。 議論的説明を定義するため、仮定に基づく議論(ABA)は構造化議論のよく知られた形式である。 具体的には、「良い」決定が許容可能なABAの議論であるようなABAフレームワークを定義し、この許容性を認める議論ツリーから議論的な説明を引き出す。 最後に、デファシブルおよび非デファシブルな情報を含む意思決定グラフの観点で、目標と意思決定の関連性に対応するために、説明可能な意思決定のための全体的なフレームワークをインスタンス化する。

It is widely acknowledged that transparency of automated decision making is crucial for deployability of intelligent systems, and explaining the reasons why some decisions are "good" and some are not is a way to achieving this transparency. We consider two variants of decision making, where "good" decisions amount to alternatives (i) meeting "most" goals, and (ii) meeting "most preferred" goals. We then define, for each variant and notion of "goodness" (corresponding to a number of existing notions in the literature), explanations in two formats, for justifying the selection of an alternative to audiences with differing needs and competences: lean explanations, in terms of goals satisfied and, for some notions of "goodness", alternative decisions, and argumentative explanations, reflecting the decision process leading to the selection, while corresponding to the lean explanations. To define argumentative explanations, we use assumption-based argumentation (ABA), a well-known form of structured argumentation. Specifically, we define ABA frameworks such that "good" decisions are admissible ABA arguments and draw argumentative explanations from dispute trees sanctioning this admissibility. Finally, we instantiate our overall framework for explainable decision-making to accommodate connections between goals and decisions in terms of decision graphs incorporating defeasible and non-defeasible information.
Shuai Niu and Qing Yin and Yunya Song and Yike Guo and Xian Yang(参考訳) 疾病のリスク予測は、現代医療分野、特に人工知能(AI)の最新の進歩に注目が集まっている。 不均一な患者情報を含む電子健康記録(EHR)は、疾患リスク予測タスクに広く利用されている。 リスク予測にAIモデルを適用する上での課題のひとつは、予測能力を維持しながら予測結果をサポートするための解釈可能な証拠を生成することだ。 この問題に対処するため,注意モジュールが医療用ノートから単語の重みを学習し,リスク予測ラベルの名前との関連性に基づき,共同で単語やラベルを埋め込む手法を提案する。 このアプローチは、注意機構を採用し、モデルに予測タスクの名前を含めることで、解釈可能性を高める。 しかし,その応用は医療用ノートなどのテキスト入力の処理に限られる。 本稿では,ラベル依存型注意モデルLDAMを提案する。 1) 臨床用BERT(大規模臨床用コーパスで事前訓練されたバイオメディカル言語モデル)を用いて、生体学的に有意な特徴やラベルを共同で符号化することにより、解釈性を向上させる。 2) 共同埋め込みの考え方を時系列データの処理に拡張し, 医療ノートや時系列健康状態指標から異質な情報を統合するためのマルチモーダル学習フレームワークを開発する。 LDAMをMIMIC-IIIデータセットに適用し,異なる疾患リスクを予測する。 定量的にも定性的にも評価する。 具体的には、LDAMの予測力を示し、その解釈可能性を示すケーススタディを行う。

Disease risk prediction has attracted increasing attention in the field of modern healthcare, especially with the latest advances in artificial intelligence (AI). Electronic health records (EHRs), which contain heterogeneous patient information, are widely used in disease risk prediction tasks. One challenge of applying AI models for risk prediction lies in generating interpretable evidence to support the prediction results while retaining the prediction ability. In order to address this problem, we propose the method of jointly embedding words and labels whereby attention modules learn the weights of words from medical notes according to their relevance to the names of risk prediction labels. This approach boosts interpretability by employing an attention mechanism and including the names of prediction tasks in the model. However, its application is only limited to the handling of textual inputs such as medical notes. In this paper, we propose a label dependent attention model LDAM to 1) improve the interpretability by exploiting Clinical-BERT (a biomedical language model pre-trained on a large clinical corpus) to encode biomedically meaningful features and labels jointly; 2) extend the idea of joint embedding to the processing of time-series data, and develop a multi-modal learning framework for integrating heterogeneous information from medical notes and time-series health status indicators. To demonstrate our method, we apply LDAM to the MIMIC-III dataset to predict different disease risks. We evaluate our method both quantitatively and qualitatively. Specifically, the predictive power of LDAM will be shown, and case studies will be carried out to illustrate its interpretability.
Shuai Niu and Yunya Song and Qing Yin and Yike Guo and Xian Yang(参考訳) 電子健康記録 (EHRs) には、患者の医療従事者から収集された異種データが含まれており、医療ノート、臨床イベント、検査結果、症状、診断が含まれる。 現代医療の分野では、人工知能(AI)が重要な役割を果たす有望な研究領域として、患者がERHに基づいてリスクを経験するかどうかを予測している。 aiモデルを実際に適用するためには、予測結果を正確かつ解釈可能であることが必要である。 そこで本稿では, ラベル依存型・事象誘導型リスク予測モデル(LERP)を提案する。 我々のモデルは以下の点で特徴付けられる。 まず、リスクラベルの名前にセマンティックに類似した医療用メモからの単語に注意を向けるラベル依存メカニズムを採用する。 第2に、臨床イベント(例えば、治療や薬物)は患者の健康状態を示すことができるため、このモデルでは、イベントからの情報を活用し、医療ノートのイベントガイド表現を生成する。 第三に、ラベル依存表現とイベント誘導表現の両方を統合して堅牢な予測を行い、医療ノートからの単語に対する注意重みによって解釈可能性を有効にする。 提案手法の適用性を実証するため,病院から収集した実世界のEHRを含むMIMIC-IIIデータセットに適用した。 本手法は定量的および定性的に評価される。

Electronic health records (EHRs) contain patients' heterogeneous data that are collected from medical providers involved in the patient's care, including medical notes, clinical events, laboratory test results, symptoms, and diagnoses. In the field of modern healthcare, predicting whether patients would experience any risks based on their EHRs has emerged as a promising research area, in which artificial intelligence (AI) plays a key role. To make AI models practically applicable, it is required that the prediction results should be both accurate and interpretable. To achieve this goal, this paper proposed a label-dependent and event-guided risk prediction model (LERP) to predict the presence of multiple disease risks by mainly extracting information from unstructured medical notes. Our model is featured in the following aspects. First, we adopt a label-dependent mechanism that gives greater attention to words from medical notes that are semantically similar to the names of risk labels. Secondly, as the clinical events (e.g., treatments and drugs) can also indicate the health status of patients, our model utilizes the information from events and uses them to generate an event-guided representation of medical notes. Thirdly, both label-dependent and event-guided representations are integrated to make a robust prediction, in which the interpretability is enabled by the attention weights over words from medical notes. To demonstrate the applicability of the proposed method, we apply it to the MIMIC-III dataset, which contains real-world EHRs collected from hospitals. Our method is evaluated in both quantitative and qualitative ways.
Kamil Faber, Roberto Corizzo, Bartlomiej Sniezynski, Michael Baron, Nathalie Japkowicz(参考訳) 動的時系列データの時間的変化を検出することは、実世界の多くのデータ分析タスクにおいて極めて重要である。 変化点検出方法は教師なしの方法で変化を検出する能力を持ち、無境界データストリームやラベルなしデータストリームの分析において望ましい特性を示す。 しかしながら、既存のアプローチの大部分の制限は、トラフィックフロー予測、ヒューマンアクティビティ認識、スマートグリッド監視といった現代のアプリケーションでよく見られる多変量および高次元のデータを扱う能力が限られていることを表している。 本稿では,ワッサースタイン距離に基づく新しい変化点検出手法であるWATCHを提案する。この手法は,新しいデータポイントを処理しながら初期分布をモデル化し,その挙動を監視し,動的高次元データにおける変化点の高精度かつ堅牢な検出を可能にする。 多数のベンチマークデータセットを含む広範な実験的評価は、WATCHが変更点を正確に識別し、最先端の手法より優れた性能を発揮することを示している。

Detecting relevant changes in dynamic time series data in a timely manner is crucially important for many data analysis tasks in real-world settings. Change point detection methods have the ability to discover changes in an unsupervised fashion, which represents a desirable property in the analysis of unbounded and unlabeled data streams. However, one limitation of most of the existing approaches is represented by their limited ability to handle multivariate and high-dimensional data, which is frequently observed in modern applications such as traffic flow prediction, human activity recognition, and smart grids monitoring. In this paper, we attempt to fill this gap by proposing WATCH, a novel Wasserstein distance-based change point detection approach that models an initial distribution and monitors its behavior while processing new data points, providing accurate and robust detection of change points in dynamic high-dimensional data. An extensive experimental evaluation involving a large number of benchmark datasets shows that WATCH is capable of accurately identifying change points and outperforming state-of-the-art methods.
Dennis Aumiller and Michael Gertz(参考訳) 伝統的に、テキスト単純化は、ソーステキストと単純化されたテキスト間の文がトレーニングのためにアライメントされるモノリンガル翻訳タスクとして扱われる。 しかし、特に長い入力文書の場合、テキストの要約(あるいは関連コンテンツの削除)は、既存のデータセットに反映されていない単純化プロセスにおいて重要な役割を果たす。 同時に、非英語言語のリソースは一般的には乏しく、新しいソリューションのトレーニングを禁止している。 この問題に取り組むために,長いソース文書を共同で要約し,単純化できるシステムにおいて,コアとなる要件を提示する。 さらに、約2900の文書からなるドイツ版ウィキペディアとドイツの子供向け辞書「klexikon」に基づくテキストの簡易化と要約のための新しいデータセットの作成について述べる。 要約の側面を特に強調したドキュメントに整合したバージョンをリリースし、このリソースが単純化にも適しているという統計的な証拠を提供します。 コードとデータはgithubで入手できる。 https://github.com/dennlinger/klexikon

Traditionally, Text Simplification is treated as a monolingual translation task where sentences between source texts and their simplified counterparts are aligned for training. However, especially for longer input documents, summarizing the text (or dropping less relevant content altogether) plays an important role in the simplification process, which is currently not reflected in existing datasets. Simultaneously, resources for non-English languages are scarce in general and prohibitive for training new solutions. To tackle this problem, we pose core requirements for a system that can jointly summarize and simplify long source documents. We further describe the creation of a new dataset for joint Text Simplification and Summarization based on German Wikipedia and the German children's lexicon "Klexikon", consisting of almost 2900 documents. We release a document-aligned version that particularly highlights the summarization aspect, and provide statistical evidence that this resource is well suited to simplification as well. Code and data are available on Github: https://github.com/dennlinger/klexikon
Shoichi Naito, Shintaro Sawada, Chihiro Nakagawa, Naoya Inoue, Kenshi Yamaguchi, Iori Shimizu, Farjana Sultana Mim, Keshav Singh, Kentaro Inui(参考訳) 批判的思考スキルの開発には,学習者の議論に対するフィードバックの提供が不可欠だが,多くの時間と労力を要する。 教師の負担を軽減するため,特に議論に内在する弱点を指摘する診断コメントを提示し,フィードバックのプロセスを自動化することを目的とする。 学習者が誤解なく診断を認識できるように、特定の診断コメントを与えることが望ましい。 しかし、どのように特定の診断コメントを提供するタスクを定式化するべきかは明らかではない。 本稿では,テンプレート選択とスロット充填としてタスクを定式化し,自動評価を容易にし,モデルの動作をより扱いやすいものにする。 定式化の鍵は、実用に十分なテンプレートセットを作成することができることである。 本稿では,テンプレートセットが満足すべき3つの条件,表現性,情報性,一意性を定義し,これらの条件を満たすテンプレートセットを最初の試行として作成する可能性を検証する。 テキスト中の診断コメントをテンプレート形式に変換するアノテーション研究によって実現可能であることを示す。 注釈研究で使用されるコーパスが公開されている。

Providing feedback on the argumentation of learner is essential for development of critical thinking skills, but it takes a lot of time and effort. To reduce the burden on teachers, we aim to automate a process of giving feedback, especially giving diagnostic comments which point out the weaknesses inherent in the argumentation. It is advisable to give specific diagnostic comments so that learners can recognize the diagnosis without misunderstanding. However, it is not obvious how the task of providing specific diagnostic comments should be formulated. We present a formulation of the task as template selection and slot filling to make an automatic evaluation easier and the behavior of the model more tractable. The key to the formulation is the possibility of creating a template set that is sufficient for practical use. In this paper, we define three criteria that a template set should satisfy: expressiveness, informativeness, and uniqueness, and verify the feasibility to create a template set that satisfies these criteria as a first trial. We will show that it is feasible through an annotation study that converts diagnostic comments given in text into a template format. The corpus used in the annotation study is publicly available.
Rongsheng Zhang, Xiaoxi Mao, Le Li, Lin Jiang, Lin Chen, Zhiwei Hu, Yadong Xi, Changjie Fan, Minlie Huang(参考訳) 近年,歌詞生成のための様々なニューラルモデルが提案されている。 しかし、これまでのほとんどの研究は、人間の介入がほとんどない単一のパスで生成プロセスを完成させた。 歌詞作成は人間の知性を中心とした創造的なプロセスだと信じています。 AIは、人間のインタラクションが高品質な創造に不可欠である歌詞作成プロセスにおいて、アシスタントとしての役割を担うべきです。 本稿では,AIによる歌詞作成システムである「textit{Youling}」について紹介する。 歌詞生成プロセスでは,従来型のフルテキスト生成モードと対話型生成モードをサポートし,先行した文脈で条件付けられた候補から満足な文を選択することができる。 システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。 さらに、 \textit{youling} では、ユーザが多面属性を使って、生成された歌詞の内容とフォーマットを制御できる。 システムのデモビデオはhttps://youtu.be/dfenphk0pm4で見ることができる。

Recently, a variety of neural models have been proposed for lyrics generation. However, most previous work completes the generation process in a single pass with little human intervention. We believe that lyrics creation is a creative process with human intelligence centered. AI should play a role as an assistant in the lyrics creation process, where human interactions are crucial for high-quality creation. This paper demonstrates \textit{Youling}, an AI-assisted lyrics creation system, designed to collaborate with music creators. In the lyrics generation process, \textit{Youling} supports traditional one pass full-text generation mode as well as an interactive generation mode, which allows users to select the satisfactory sentences from generated candidates conditioned on preceding context. The system also provides a revision module which enables users to revise undesired sentences or words of lyrics repeatedly. Besides, \textit{Youling} allows users to use multifaceted attributes to control the content and format of generated lyrics. The demo video of the system is available at https://youtu.be/DFeNpHk0pm4.
Xiaoying Zhang, Baolin Peng, Jianfeng Gao, Helen Meng(参考訳) エンドツーエンドのタスク指向のダイアログシステムは、動的、変化し、オープンな環境にデプロイされた後、アウト・オブ・ディストリビューション(OOD)の入力に悩まされることが多い。 本研究では,より現実的な環境下での対話システム構築のための教師付き学習,強化学習,機械教育を組み合わせた自己学習フレームワークSL-Agentを提案する。 SL-Agentは、システム応答の品質を判断するダイアログモデルと事前訓練された報酬モデルから構成される。 SL-Agentは、強化学習を通じて人間とボットのインタラクションから学習することで、ユーザー行動の変化のある環境に自動的に適応できる。 SL-Agentを4つの異なるダイアログドメインで検証する。 SL-Agentは自動評価と人的評価の両方を用いて環境変化に適応する。 さらに、挑戦的なドメイン拡張設定の実験により、slエージェントが機械教育によって提供される限られた人間の修正を用いて、新しいタスクに効果的に適応できることが示されている。 さらなる研究のために、コード、データ、事前訓練されたモデルをリリースします。

End-to-end task-oriented dialog systems often suffer from out-of-distribution (OOD) inputs after being deployed in dynamic, changing, and open environments. In this work, we propose SL-Agent, a self-learning framework that combines supervised learning, reinforcement learning, and machine teaching for building end-to-end dialog systems in a more realistic changing environment setting. SL-Agent consists of a dialog model and a pre-trained reward model to judge the quality of a system response. SL-Agent enables dialog agents to automatically adapt to environments with user behavior changes by learning from human-bot interactions via reinforcement learning, with the incorporated pre-trained reward model. We validate SL-Agent in four different dialog domains. Experimental results show the effectiveness of SL-Agent for automatically adapting to changing environments using both automatic and human evaluations. Furthermore, experiments on a challenging domain extension setting demonstrate that SL-Agent can effectively adapt to new tasks using limited human corrections provided via machine teaching. We will release code, data, and pre-trained models for further research.
Feihu Jin, Jinliang Lu, Jiajun Zhang and Chengqing Zong(参考訳) 近年,事前学習型言語モデル(plm)を用いたプロンプト学習が新たなパラダイムとなり,パラメータの増大によって下流タスクで有望な結果が得られている。 現在の離散的および連続的なプロンプトの使用は、プロンプトが特定のタスクに対して固定され、タスク内のすべてのサンプルが同じプロンプトを共有することを前提としている。 しかし、タスクには非常に多様なサンプルが含まれており、その中には簡単で難しいものもあれば、さまざまなプロンプトが望ましいものもある。 本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス認識型プロンプト学習手法を提案する。 具体的には、各学習可能なプロンプトトークンが異なるインスタンスに対して異なる貢献を持つと仮定し、各インスタンスと各プロンプトトークンの間の関連性スコアを計算して貢献を学習する。 貢献の重み付けされたプロンプトはインスタンスに認識されます。 本手法は,一方向plmと双方向plmの両方に,言語理解と生成タスクの両方に応用する。 広範な実験により,本手法は強いベースラインと比較して相当な改善が得られた。 特に,本手法は,SuperGLUE数ショット学習ベンチマークの最先端性を達成している。

Recently, prompt learning has become a new paradigm to utilize pre-trained language models (PLMs) and achieves promising results in downstream tasks with a negligible increase of parameters. The current usage of discrete and continuous prompts assumes that the prompt is fixed for a specific task and all samples in the task share the same prompt. However, a task may contain quite diverse samples in which some are easy and others are difficult, and diverse prompts are desirable. In this paper, we propose an instance-aware prompt learning method that learns a different prompt for each instance. Specifically, we suppose that each learnable prompt token has a different contribution to different instances, and we learn the contribution by calculating the relevance score between an instance and each prompt token. The contribution weighted prompt would be instance aware. We apply our method to both unidirectional and bidirectional PLMs on both language understanding and generation tasks. Extensive experiments demonstrate that our method obtains considerable improvements compared to strong baselines. Especially, our method achieves the state-of-the-art on the SuperGLUE few-shot learning benchmark.
Luya Wang, Feng Liang, Yangguang Li, Wanli Ouyang, Honggang Zhang, Jing Shao(参考訳) 近年、自己監督型視覚変換器は印象的な表現学習能力で前例のない注目を集めている。 しかし、コントラスト学習という支配的な手法は、主に画像のグローバルな理解を学習するインスタンス識別プレテキストタスクに依存している。 本稿では,Reconstructive Pre-Training(RePre)を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。 私たちのrepreは、既存のコントラスト目的と並行して生のピクセルを再構築するブランチを追加することで、コントラストフレームワークを拡張します。 RePreは軽量な畳み込みベースのデコーダを備えており、トランスフォーマーエンコーダのマルチ階層機能を融合している。 マルチ階層機能は、低レベルから高レベルのセマンティック情報まで、豊富な監視を提供します。 私たちのRePreは、異なるビジョントランスフォーマーアーキテクチャを持つさまざまなコントラストフレームワークに対して、適切な改善を提供します。 下流タスクにおける転送性能は、教師付き事前訓練およびSOTA(State-of-the-art)自己監督タスクよりも優れる。

Recently, self-supervised vision transformers have attracted unprecedented attention for their impressive representation learning ability. However, the dominant method, contrastive learning, mainly relies on an instance discrimination pretext task, which learns a global understanding of the image. This paper incorporates local feature learning into self-supervised vision transformers via Reconstructive Pre-training (RePre). Our RePre extends contrastive frameworks by adding a branch for reconstructing raw image pixels in parallel with the existing contrastive objective. RePre is equipped with a lightweight convolution-based decoder that fuses the multi-hierarchy features from the transformer encoder. The multi-hierarchy features provide rich supervisions from low to high semantic information, which are crucial for our RePre. Our RePre brings decent improvements on various contrastive frameworks with different vision transformer architectures. Transfer performance in downstream tasks outperforms supervised pre-training and state-of-the-art (SOTA) self-supervised counterparts.
Sitan Chen, Jerry Li, Yuanzhi Li, Raghu Meka(参考訳) 生成逆数ネットワーク(GAN)の理論における最も基本的な疑問は、GANが実際に基礎となる分布をどの程度学べるかを理解することである。 理論的および実証的証拠は、経験的訓練対象の局所的最適性が不十分であることを示唆している。 しかし、真の人口ミニマックス最適解を達成することが分布学習を意味する可能性は否定できない。 本稿では,この強い条件がまだ不十分であることを示す標準的な暗号仮定を示す。 すなわち、局所擬似乱数生成器(PRG)が存在する場合、自然の連続目標分布の大きな族に対して、ガウスランダムシードを取る定数深さと多項式サイズのReLUネットワーク生成器が存在することを示す。 (i) 出力は目標分布からwasserstein距離に遠く及んでいるが (ii)多項式的に大きなリプシッツ判別器reluネットワークは検出できない。 これは、ワッサーシュタイン GAN の目的に対して、人口最小の最適解さえも、通常の統計的意味での分布学習には不十分であることを意味する。 我々の技術は、GANとPRGの深い関係を明らかにし、GANの計算環境に関するさらなる洞察をもたらすものと信じている。

Arguably the most fundamental question in the theory of generative adversarial networks (GANs) is to understand to what extent GANs can actually learn the underlying distribution. Theoretical and empirical evidence suggests local optimality of the empirical training objective is insufficient. Yet, it does not rule out the possibility that achieving a true population minimax optimal solution might imply distribution learning. In this paper, we show that standard cryptographic assumptions imply that this stronger condition is still insufficient. Namely, we show that if local pseudorandom generators (PRGs) exist, then for a large family of natural continuous target distributions, there are ReLU network generators of constant depth and polynomial size which take Gaussian random seeds so that (i) the output is far in Wasserstein distance from the target distribution, but (ii) no polynomially large Lipschitz discriminator ReLU network can detect this. This implies that even achieving a population minimax optimal solution to the Wasserstein GAN objective is likely insufficient for distribution learning in the usual statistical sense. Our techniques reveal a deep connection between GANs and PRGs, which we believe will lead to further insights into the computational landscape of GANs.
Anabik Pal, Zhiyun Xue and Sameer Antani(参考訳) 子宮頸癌は世界で4番目に多いがんである。 堅牢な自動頚椎画像分類システムの可用性は、従来の視覚検査における臨床ケア提供者のアセト酸(VIA)の限界を増大させる可能性がある。 しかし, 基準特異的予測モデル開発におけるラベル付け基準に影響を与える頚部検査の目的は様々である。 さらに、検証結果の欠如やラスタラベリングのばらつきにより、多くの画像がラベル付けされていない。 そこで本研究では,これらの課題に動機づけられた自己教師付き学習(ssl)アプローチを提案する。 開発したモデルはさらに微調整され、利用可能なラベル付き画像で基準に固有の分類モデルを生成する。 2つの頚部画像データセットを用いて提案手法の有効性を示す。 どちらのデータセットも部分的にラベル付けされており、ラベル付け基準が異なる。 実験の結果、SSLベースの初期化により分類性能(精度:2.5%分)が向上し、SSL中の両方のデータセットからのイメージの取り込みにより性能(精度:1.5%分)が向上した。 さらに,データ共有の制限を考慮し,フェデレートSSLの有効性を検証し,その画像だけで開発されたSSLモデルよりも性能を向上できることを確認した。 これはSSLベースのcervixモデル開発の重要性を正当化する。 本研究は,異なるソースからの画像をラベル付き・ラベル付きで合成し,画像アクセス制限に対処し,頸椎画像分類の基準固有の深層モデルを開発する上で,新たな方向性を示すものと考えられる。

Cervical cancer is the fourth most common cancer in women worldwide. The availability of a robust automated cervical image classification system can augment the clinical care provider's limitation in traditional visual inspection with acetic acid (VIA). However, there are a wide variety of cervical inspection objectives which impact the labeling criteria for criteria-specific prediction model development. Moreover, due to the lack of confirmatory test results and inter-rater labeling variation, many images are left unlabeled. Motivated by these challenges, we propose a self-supervised learning (SSL) based approach to produce a pre-trained cervix model from unlabeled cervical images. The developed model is further fine-tuned to produce criteria-specific classification models with the available labeled images. We demonstrate the effectiveness of the proposed approach using two cervical image datasets. Both datasets are partially labeled and labeling criteria are different. The experimental results show that the SSL-based initialization improves classification performance (Accuracy: 2.5% min) and the inclusion of images from both datasets during SSL further improves the performance (Accuracy: 1.5% min). Further, considering data-sharing restrictions, we experimented with the effectiveness of Federated SSL and find that it can improve performance over the SSL model developed with just its images. This justifies the importance of SSL-based cervix model development. We believe that the present research shows a novel direction in developing criteria-specific custom deep models for cervical image classification by combining images from different sources unlabeled and/or labeled with varying criteria, and addressing image access restrictions.
Sungwon Park and Sundong Kim and Meeyoung Cha(参考訳) トラフィックの変化に関する知識はリスク管理において重要です。 世界中の税関は伝統的に、知識を蓄積し、税金の不正を検知するために地元の資源に頼ってきた。 これは、インフラの弱い国が、潜在的に非合法な貿易のタックスヘイブンになることを自然に表している。 本報告では,多国籍税関行政間の知識共有を支援するためのメモリバンクプラットフォームであるDASを提案する。 そこで本研究では,偽情報の伝達可能な知識をプロトタイプとして共有するドメイン適応手法を提案する。 800万以上の輸入宣言を含むデータは、この新しいシステムの実現可能性をテストするために使われており、参加国は共有知識の助けを借りて不正検出を最大2~11回行うことができる。 我々は、実質的な税収の可能性と不正取引に対する政策強化について論じる。

Knowledge of the changing traffic is critical in risk management. Customs offices worldwide have traditionally relied on local resources to accumulate knowledge and detect tax fraud. This naturally poses countries with weak infrastructure to become tax havens of potentially illicit trades. The current paper proposes DAS, a memory bank platform to facilitate knowledge sharing across multi-national customs administrations to support each other. We propose a domain adaptation method to share transferable knowledge of frauds as prototypes while safeguarding the local trade information. Data encompassing over 8 million import declarations have been used to test the feasibility of this new system, which shows that participating countries may benefit up to 2-11 times in fraud detection with the help of shared knowledge. We discuss implications for substantial tax revenue potential and strengthened policy against illicit trades.
Julius Sch\"oning, Adrian Riechmann and Hans-J\"urgen Pfisterer(参考訳) 制御システム、特にクローズドループ制御システム(clcs)は、現在生産機械、車両、ロボットで頻繁に使用されている。 CLCSは、プロセスの実際の値を与えられた参照または設定された値に、非常に高い優先度で積極的に調整するために必要である。 しかし、人工知能(AI)はCLCSをモデル化、設計、最適化、チューニングするために使われていない。 本稿では,AIを活用した制御システムの設計と設計の可能性を強調し,制御システム工学の分野における新たな機会と研究の方向性について述べる。 そこで本研究では,CLCSの標準ブロック図内に構築されたブロックを,AI,すなわち人工神経ネットワーク(ANN)に置き換えることができるかを示す。 リアルタイムに含まれるプロセスと機能的安全性を念頭に置いて、aiベースのコントローラブロックがこれらの要求に対応できるかどうかを議論する。 論文を締めくくることで、AIを活用した設計とCLCSの設計の長所と短所が議論され、制御システム工学分野にAIを導入するための研究の方向性が提示される。

Control Systems, particularly closed-loop control systems (CLCS), are frequently used in production machines, vehicles, and robots nowadays. CLCS are needed to actively align actual values of a process to a given reference or set values in real-time with a very high precession. Yet, artificial intelligence (AI) is not used to model, design, optimize, and tune CLCS. This paper will highlight potential AI-empowered and -based control system designs and designing procedures, gathering new opportunities and research direction in the field of control system engineering. Therefore, this paper illustrates which building blocks within the standard block diagram of CLCS can be replaced by AI, i.e., artificial neuronal networks (ANN). Having processes with real-time contains and functional safety in mind, it is discussed if AI-based controller blocks can cope with these demands. By concluding the paper, the pros and cons of AI-empowered as well as -based CLCS designs are discussed, and possible research directions for introducing AI in the domain of control system engineering are given.
Andreea Bobu, Marius Wiggert, Claire Tomlin, Anca D. Dragan(参考訳) リワード学習により、ロボットは人間の入力から適応的な行動を学ぶことができる。 従来の手法では、報酬を手作りの機能の線形関数としてモデル化するが、実際のタスクでは不可能である、すべての関連する特徴を事前に指定する必要がある。 この問題を回避するために、最近のDeep Inverse Reinforcement Learning (IRL)メソッドは生の状態から直接報酬を学習するが、ロボットは重要な機能とそれらを同時に組み合わせる方法を暗黙的に学ぶ必要があるため、これは難しい。 その代わり、分割と克服のアプローチを提案します。特徴を個別に学習することに特化した人間のインプットに注目し、それらを報酬に組み合わせる方法のみを学びます。 本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から学習するアルゴリズムを紹介する。 ロボットは、デモや修正、その他の報酬学習フレームワークを使って、報酬と組み合わせる方法を学ぶことができる。 当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。 提案手法は,まず特徴に焦点をあてることで,サンプルの複雑さを低減し,深いIRLベースライン上での学習報酬の一般化を向上する。 本研究は,7dofロボットマニピュレータを用いた実験や,シミュレーション環境でのユーザ実験で紹介する。

Reward learning enables robots to learn adaptable behaviors from human input. Traditional methods model the reward as a linear function of hand-crafted features, but that requires specifying all the relevant features a priori, which is impossible for real-world tasks. To get around this issue, recent deep Inverse Reinforcement Learning (IRL) methods learn rewards directly from the raw state but this is challenging because the robot has to implicitly learn the features that are important and how to combine them, simultaneously. Instead, we propose a divide and conquer approach: focus human input specifically on learning the features separately, and only then learn how to combine them into a reward. We introduce a novel type of human input for teaching features and an algorithm that utilizes it to learn complex features from the raw state space. The robot can then learn how to combine them into a reward using demonstrations, corrections, or other reward learning frameworks. We demonstrate our method in settings where all features have to be learned from scratch, as well as where some of the features are known. By first focusing human input specifically on the feature(s), our method decreases sample complexity and improves generalization of the learned reward over a deepIRL baseline. We show this in experiments with a physical 7DOF robot manipulator, as well as in a user study conducted in a simulated environment.
Hamed Khorasgani, Haiyan Wang, Hsiu-Khuern Tang, Chetan Gupta(参考訳) 従来,多エージェント深部強化学習アルゴリズムの性能は,一定数のエージェントを持つゲーム環境で実証され,検証されてきた。 多くの産業アプリケーションでは、利用可能なエージェントの数はいつでも変化し、エージェントの数が事前に分かっている場合でも、操作中にエージェントが故障し、一定期間利用できなくなることが一般的である。 本稿では,多エージェント協調作業におけるエージェント数の変化を考慮した深層強化学習アルゴリズムを提案する。 本手法は,日立が開発したフリート管理シミュレータを用いて実運用環境での現実的なシナリオ生成を行う。

Traditionally, the performance of multi-agent deep reinforcement learning algorithms are demonstrated and validated in gaming environments where we often have a fixed number of agents. In many industrial applications, the number of available agents can change at any given day and even when the number of agents is known ahead of time, it is common for an agent to break during the operation and become unavailable for a period of time. In this paper, we propose a new deep reinforcement learning algorithm for multi-agent collaborative tasks with a variable number of agents. We demonstrate the application of our algorithm using a fleet management simulator developed by Hitachi to generate realistic scenarios in a production site.
Tannista Banerjee and Ayan Paul and Vishak Srikanth and Inga Str\"umke(参考訳) 因果関係の分析は様々な方法でアプローチ可能な課題である。 計算社会経済学における機械学習モデルの利用の増加に伴い、因果関係を考慮したモデルの説明が不可欠である。 本研究では,$do$ calculusを付加した協調ゲーム理論,すなわち因果シャプリー値からの説明的フレームワークの利用を提唱する。 本研究では,アメリカにおける新型コロナウイルスの感染拡大に因果関係を持つ社会経済的格差を分析した。 病期が拡大し,因果関係が経時的にどのように変化するかを明らかにする。 ランダム効果モデルを用いた因果分析を行い,この2つの手法の対応について検討した。 多変量解析を行う場合、非線形機械学習モデルでは、特に機械学習モデルでは、データ内の非線形相関をマップアウトできるため、線形モデルよりも明確な利点が示される。 さらに、因果Shapley値は、機械学習モデルのために計算された変数重要度に因果構造を含めることができる。

The analysis of causation is a challenging task that can be approached in various ways. With the increasing use of machine learning based models in computational socioeconomics, explaining these models while taking causal connections into account is a necessity. In this work, we advocate the use of an explanatory framework from cooperative game theory augmented with $do$ calculus, namely causal Shapley values. Using causal Shapley values, we analyze socioeconomic disparities that have a causal link to the spread of COVID-19 in the USA. We study several phases of the disease spread to show how the causal connections change over time. We perform a causal analysis using random effects models and discuss the correspondence between the two methods to verify our results. We show the distinct advantages a non-linear machine learning models have over linear models when performing a multivariate analysis, especially since the machine learning models can map out non-linear correlations in the data. In addition, the causal Shapley values allow for including the causal structure in the variable importance computed for the machine learning model.
Hyun-Suk Lee(参考訳) 動的スケジューリングは、キューから無線ネットワークへのアプリケーションにおいて重要な問題である。 長期的目標を達成するために、各タイムステップで複数のスケジューリング項目の中からアイテムを選択する方法に対処する。 動的スケジューリングの従来のアプローチは、与えられた特定のシステムに対して最適なポリシーを見つけるので、これらのアプローチからのポリシーは対応するシステム特性に対してのみ使用可能である。 したがって、システム特性が動的に変化する実用的なシステムには、そのようなアプローチを使うのは難しい。 本稿では,同一タスク(動的スケジューリング)のシステム特性に適応するシステム非依存な機能を有する,mdpベースの動的スケジューリングのための新しいポリシー構造を提案する。 この目的のために、記述ポリシーは「どの項目の条件がスケジューリングの優先度が高いか」という、システムに依存しないスケジューリング原則を学ぶ。 スケジューリング原則は任意のシステムに適用でき、あるシステムで学んだ記述ポリシーを他のシステムに使用することができる。 単純な説明と現実的なアプリケーションシナリオによる実験により、システム固有の従来のポリシーと比較して、パフォーマンスの低下が極めて少ない、システム非依存なメタラーニングが可能になる。

Dynamic scheduling is an important problem in applications from queuing to wireless networks. It addresses how to choose an item among multiple scheduling items in each timestep to achieve a long-term goal. Conventional approaches for dynamic scheduling find the optimal policy for a given specific system so that the policy from these approaches is usable only for the corresponding system characteristics. Hence, it is hard to use such approaches for a practical system in which system characteristics dynamically change. This paper proposes a novel policy structure for MDP-based dynamic scheduling, a descriptive policy, which has a system-agnostic capability to adapt to unseen system characteristics for an identical task (dynamic scheduling). To this end, the descriptive policy learns a system-agnostic scheduling principle--in a nutshell, "which condition of items should have a higher priority in scheduling". The scheduling principle can be applied to any system so that the descriptive policy learned in one system can be used for another system. Experiments with simple explanatory and realistic application scenarios demonstrate that it enables system-agnostic meta-learning with very little performance degradation compared with the system-specific conventional policies.
Sergey N. Pozdnyakov and Michele Ceriotti(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は機械学習において非常に一般的な手法であり、分子や物質の特性の予測に非常にうまく応用されている。 第一次GCNNは不完全であることがよく知られており、GCNNのレンズを通して見ると、異なるが同一に見えるグラフが存在する。 したがって、より複雑なスキームは解決力を高めるために設計されている。 しかし、分子(およびより一般的には点雲)への応用は、問題に幾何学的次元を加える。 分子のグラフ表現を構築するための最も単純で一般的なアプローチは、原子をグラフの頂点とみなし、あらかじめ選択されたカットオフ内の各原子対間の結合を描くことである。 結合は原子間距離で装飾され、結果として生じる「距離グラフ畳み込みNN」(dGCNN)は、優れた分解力を示し、化学MLで広く用いられている。 ここでは、3次元原子雲によって誘導されるグラフの制限された場合においても、dGCNNは完全ではないことを示す。 我々は、任意のカットオフ半径に対して、一階ワイスフェイラー・リーマン検定に基づいて等価であるグラフを生成する異なる点雲のペアを構築する。 このタイプの縮退構造は化学的に証明可能な構成を含み、原子論的機械学習のための確立されたGCNNアーキテクチャの表現力に究極の限界を設定する。 原子環境の説明で明示的に角情報を使用するモデルは、これらの縮退を解決できる。

Graph convolutional neural networks (GCNN) are very popular methods in machine learning and have been applied very successfully to the prediction of the properties of molecules and materials. First-order GCNNs are well known to be incomplete, i.e., there exist graphs that are distinct but appear identical when seen through the lens of the GCNN. More complicated schemes have thus been designed to increase their resolving power. Applications to molecules (and more generally, point clouds), however, add a geometric dimension to the problem. The most straightforward and prevalent approach to construct graph representation for the molecules regards atoms as vertices in a graph and draws a bond between each pair of atoms within a certain preselected cutoff. Bonds can be decorated with the distance between atoms, and the resulting "distance graph convolution NNs" (dGCNN) have empirically demonstrated excellent resolving power and are widely used in chemical ML. Here we show that even for the restricted case of graphs induced by 3D atom clouds dGCNNs are not complete. We construct pairs of distinct point clouds that generate graphs that, for any cutoff radius, are equivalent based on a first-order Weisfeiler-Lehman test. This class of degenerate structures includes chemically-plausible configurations, setting an ultimate limit to the expressive power of some of the well-established GCNN architectures for atomistic machine learning. Models that explicitly use angular information in the description of atomic environments can resolve these degeneracies.
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では,一変量損失関数における大域最適化問題に対する計算効率のよいアルゴリズムを提案する。 性能評価のために, 最良問合せと目的関数の最適値との単純な後悔ではなく, アルゴリズムの累積後悔について検討した。 この手法は,リプシッツ連続関数やリプシッツ滑らか関数に対するpiyavskii-shubert法のような従来の低バウンドアルゴリズムでも同様に後悔する結果をもたらすが,計算コストの利点は大きい。 Piyavskii-Shubert 法では、ある種の関数に対して、クエリポイントは決定が難しい(それらがさらなる最適化問題の解であるから)。 しかし, この問題は, 関数特性に関わらずサンプリングセットが予め決められた二分サンプリング手法で回避される。 検索空間が$[0,1]$の場合、我々のアプローチは最大$L\log (3T)$と$2.25H$でそれぞれ$L$-Lipschitz連続と$H$-Lipschitz滑らかな関数を後悔する。 また、より複雑な正則性条件をカバーするより広範な関数のクラスに対して解析的に結果を拡張する。

In this work, we propose a computationally efficient algorithm for the problem of global optimization in univariate loss functions. For the performance evaluation, we study the cumulative regret of the algorithm instead of the simple regret between our best query and the optimal value of the objective function. Although our approach has similar regret results with the traditional lower-bounding algorithms such as the Piyavskii-Shubert method for the Lipschitz continuous or Lipschitz smooth functions, it has a major computational cost advantage. In Piyavskii-Shubert method, for certain types of functions, the query points may be hard to determine (as they are solutions to additional optimization problems). However, this issue is circumvented in our binary sampling approach, where the sampling set is predetermined irrespective of the function characteristics. For a search space of $[0,1]$, our approach has at most $L\log (3T)$ and $2.25H$ regret for $L$-Lipschitz continuous and $H$-Lipschitz smooth functions respectively. We also analytically extend our results for a broader class of functions that covers more complex regularity conditions.
Tao Huang, Jiachen Wang, Xiao Chen(参考訳) 画像に基づく観察から情報表現を学ぶことは、深層強化学習(RL)の基本的関心事である。 しかし、データ非効率はこの目的にとって重要な障壁である。 この障害を克服するため,我々は,ダイナミクスのビュー一貫性を強制することにより,状態表現学習を高速化する。 まず,多視点マルコフ決定過程(MMDP)の定式化について述べる。 本手法はmmdpの構造に従い,潜在空間におけるビュー一貫性ダイナミクスモデルをトレーニングすることで状態表現を学習し,状態へのデータ拡張を適用してビューを生成する。 DeepMind Control SuiteとAtari-100kの実証的な評価により、VCDは視覚制御タスクにおけるSoTAデータ効率アルゴリズムであることが示された。

Learning informative representations from image-based observations is of fundamental concern in deep Reinforcement Learning (RL). However, data-inefficiency remains a significant barrier to this objective. To overcome this obstacle, we propose to accelerate state representation learning by enforcing view-consistency on the dynamics. Firstly, we introduce a formalism of Multi-view Markov Decision Process (MMDP) that incorporates multiple views of the state. Following the structure of MMDP, our method, View-Consistent Dynamics (VCD), learns state representations by training a view-consistent dynamics model in the latent space, where views are generated by applying data augmentation to states. Empirical evaluation on DeepMind Control Suite and Atari-100k demonstrates VCD to be the SoTA data-efficient algorithm on visual control tasks.
Wolfgang Fuhl, Daniel Weber, Enkelejda Kasneci(参考訳) 本稿では,将来,瞳孔が見えないプロジェクトや眼球追跡装置で使用できるピストルと呼ばれる特徴抽出・視線推定ソフトウェアについて述べる。 オフラインモードでは,瞳孔と虹彩楕円,瞳孔,瞳孔ベクトル,虹彩ベクトル,瞳孔と虹彩速度からの眼球運動タイプ,マーカー検出,マーカー距離,瞳孔中心の2次元視線推定,虹彩中心,瞳孔ベクトル,虹彩ベクトルなど,眼球から複数の特徴を抽出する。 視線信号は、各眼で2dで計算され、各眼でそれぞれ別々に、両眼でそれぞれ別々に3dで計算される。 このソフトウェアは、他の研究者が彼らの研究成果から最先端の機能を抽出するのに役立つことを願っている。

This paper describes a feature extraction and gaze estimation software, named Pistol that can be used with Pupil Invisible projects and other eye trackers in the future. In offline mode, our software extracts multiple features from the eye including, the pupil and iris ellipse, eye aperture, pupil vector, iris vector, eye movement types from pupil and iris velocities, marker detection, marker distance, 2D gaze estimation for the pupil center, iris center, pupil vector, and iris vector using Levenberg Marquart fitting and neural networks. The gaze signal is computed in 2D for each eye and each feature separately and for both eyes in 3D also for each feature separately. We hope this software helps other researchers to extract state-of-the-art features for their research out of their recordings.
Donald Shenaj, Francesco Barbato, Umberto Michieli, Pietro Zanuttigh(参考訳) ディープニューラルネットワークは通常、特定のタスクとデータ分散のために単一のショットでトレーニングされるが、現実の設定では、タスクとアプリケーションのドメインの両方が変更される。 この問題は、セマンティックセグメンテーションのような密集した予測タスクにおいてさらに困難になり、さらに多くのアプローチが2つの問題に別々に取り組む。 本稿では,ドメインシフトの存在下で意味セグメンテーションアーキテクチャを粗雑に学習する新しいタスクを提案する。 各学習段階における意味ラベルの細かい集合は,前段階の粗い集合から階層的に導出される。 このシナリオに対処するための新しいアプローチ(CCDA)を提案する。 まず、ソースとターゲットドメインを整列させるために最大二乗損失を採用し、同時に、よく分類されたサンプルと難しいサンプルの勾配のバランスをとる。 第2に,ラベルの粗い集合から得られたネットワーク機能を,より微細なラベルの集合に転送するための,新しい粗大な知識蒸留制約を導入する。 最後に,各粗いクラスから細かなクラスへ重要度を分散させるために,粗いウェイト初期化ルールを設計する。 提案手法を評価するために,gta5データセットからソース知識を抽出し,cityscapes または idd データセットに転送するベンチマークを2つ設計した。

Deep neural networks are typically trained in a single shot for a specific task and data distribution, but in real world settings both the task and the domain of application can change. The problem becomes even more challenging in dense predictive tasks, such as semantic segmentation, and furthermore most approaches tackle the two problems separately. In this paper we introduce the novel task of coarse-to-fine learning of semantic segmentation architectures in presence of domain shift. We consider subsequent learning stages progressively refining the task at the semantic level; i.e., the finer set of semantic labels at each learning step is hierarchically derived from the coarser set of the previous step. We propose a new approach (CCDA) to tackle this scenario. First, we employ the maximum squares loss to align source and target domains and, at the same time, to balance the gradients between well-classified and harder samples. Second, we introduce a novel coarse-to-fine knowledge distillation constraint to transfer network capabilities acquired on a coarser set of labels to a set of finer labels. Finally, we design a coarse-to-fine weight initialization rule to spread the importance from each coarse class to the respective finer classes. To evaluate our approach, we design two benchmarks where source knowledge is extracted from the GTA5 dataset and it is transferred to either the Cityscapes or the IDD datasets, and we show how it outperforms the main competitors.
Marianna B. Ganapini, Murray Campbell, Francesco Fabiano, Lior Horesh, Jon Lenchner, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy, Francesca Rossi, Biplav Srivastava, Brent Venable(参考訳) 現在のAIシステムには、適応性、一般化可能性、自己制御、一貫性、常識、因果推論など、いくつかの重要な人間の能力がない。 我々は、人間の意思決定に関する既存の認知理論、例えば思考の速さと遅い理論は、これらの能力のいくつかに向けてAIシステムを前進させる方法について洞察を与えることができると考えている。 本稿では,高速かつスローな解法とメタ認知的成分に基づく汎用アーキテクチャを提案する。 次に、制約された環境でのナビゲーションに関する決定を行うAIシステムに対して、このアーキテクチャのインスタンスの動作に関する実験結果を示す。 高速で遅い意思決定のモダリティを組み合わせることで、システムが時間とともに進化し、十分な経験を積んだゆっくりとした思考から速い思考へと徐々に移行し、意思決定の品質、リソース消費、効率に大きく寄与することを示す。

Current AI systems lack several important human capabilities, such as adaptability, generalizability, self-control, consistency, common sense, and causal reasoning. We believe that existing cognitive theories of human decision making, such as the thinking fast and slow theory, can provide insights on how to advance AI systems towards some of these capabilities. In this paper, we propose a general architecture that is based on fast/slow solvers and a metacognitive component. We then present experimental results on the behavior of an instance of this architecture, for AI systems that make decisions about navigating in a constrained environment. We show how combining the fast and slow decision modalities allows the system to evolve over time and gradually pass from slow to fast thinking with enough experience, and that this greatly helps in decision quality, resource consumption, and efficiency.
Bo Feng and Geoffrey Fox(参考訳) 時空間時系列放送は、モデルから新しいシーケンスを生成するという意味で、時間的および空間的ダイナミクスを保存すべきである。 従来の特徴抽出器はディープ畳み込みニューラルネットワーク(CNN)で構築されている。 しかし、CNNモデルは高次元配列でデータを生成できるイメージライクなアプリケーションに限りがある。 対照的に、ソーシャルネットワーク、道路交通、物理、化学特性予測における応用は、グラフのノードとエッジでデータ特徴を整理できる。 トランスフォーマーアーキテクチャは予測モデルのための新しい手法であり、注意機構の設計による高い精度と効率をもたらす。 本稿では,データ特徴をグラフ埋め込みに変換し,トランスフォーマモデルを用いて時空間ダイナミクスを予測する時空間モデルgtransを提案する。 我々の実験によると、GTransは空間的および時間的ダイナミクスをモデル化し、データセットの極端なイベントを放送することができる。 さらに、すべての実験において、GTransはベースラインモデルよりもバイナリクラスの予測テストでF1とF2のスコアが最も高い。

Spatiotemporal time series nowcasting should preserve temporal and spatial dynamics in the sense that generated new sequences from models respect the covariance relationship from history. Conventional feature extractors are built with deep convolutional neural networks (CNN). However, CNN models have limits to image-like applications where data can be formed with high-dimensional arrays. In contrast, applications in social networks, road traffic, physics, and chemical property prediction where data features can be organized with nodes and edges of graphs. Transformer architecture is an emerging method for predictive models, bringing high accuracy and efficiency due to attention mechanism design. This paper proposes a spatiotemporal model, namely GTrans, that transforms data features into graph embeddings and predicts temporal dynamics with a transformer model. According to our experiments, we demonstrate that GTrans can model spatial and temporal dynamics and nowcasts extreme events for datasets. Furthermore, in all the experiments, GTrans can achieve the highest F1 and F2 scores in binary-class prediction tests than the baseline models.
Matteo Castiglioni, Alessandro Nuara, Giulia Romano, Giorgio Spadaro, Francesco Trov\`o, Nicola Gatti(参考訳) オンラインマーケティングでは、広告主のゴールは通常、高いボリュームと高い利益率のトレードオフである。 両社のビジネスユニットはこのトレードオフに対して、投資収益率(ROI)の低下を保証しつつ、ボリュームを最大化することで、慣習的に対処する。 本稿では,不確定な予算とroi制約を受ける広告キャンペーンの入札最適化のための組合せバンディットアルゴリズムについて検討する。 我々は最適化問題と学習問題の両方の性質について研究する。 特に、不確実性のない最適化問題に注目する場合、P=NPを除いた任意の係数で近似できないことを示し、最適解を得る擬似多項式時間アルゴリズムを提供する。 不確実性を考慮すると、オンライン学習アルゴリズムが学習過程の制約(ROIまたは予算)に何回も違反することはなく、サブ線形擬似回帰を保証する。 そこで本研究では, 線形な制約違反のコストを犠牲にして, サブリニアな後悔を保証できるアルゴリズム, gcbを提案する。 我々はまた、その安全なバージョン、すなわちGCB_{safe}を設計し、線形擬似回帰のコストで制約違反の数に一定の上限を保証します。 より興味深いことに、我々は、それぞれROIと予算制約の満足度において許容度 \psi と \phi を受け入れるコストで、サブ線形擬似回帰と安全性 w.h.p. の両方を保証するアルゴリズム、GCB_{safe}(\psi,\phi) を提供する。 このアルゴリズムは、最適解への収束を排除せずに、制約違反によるリスクを軽減する。 最後に,実世界データから生成された設定における疑似レグレット/コンストラクション違反トレードオフの観点から,本アルゴリズムを実験的に比較し,安全性制約を実際に採用することの重要性とアルゴリズムの有効性を示した。

In online marketing, the advertisers' goal is usually a tradeoff between achieving high volumes and high profitability. The companies' business units customarily address this tradeoff by maximizing the volumes while guaranteeing a lower bound to the Return On Investment (ROI). This paper investigates combinatorial bandit algorithms for the bid optimization of advertising campaigns subject to uncertain budget and ROI constraints. We study the nature of both the optimization and learning problems. In particular, when focusing on the optimization problem without uncertainty, we show that it is inapproximable within any factor unless P=NP, and we provide a pseudo-polynomial-time algorithm that achieves an optimal solution. When considering uncertainty, we prove that no online learning algorithm can violate the (ROI or budget) constraints during the learning process a sublinear number of times while guaranteeing a sublinear pseudo-regret. Thus, we provide an algorithm, namely GCB, guaranteeing sublinear regret at the cost of a potentially linear number of constraints violations. We also design its safe version, namely GCB_{safe}, guaranteeing w.h.p. a constant upper bound on the number of constraints violations at the cost of a linear pseudo-regret. More interestingly, we provide an algorithm, namely GCB_{safe}(\psi,\phi), guaranteeing both sublinear pseudo-regret and safety w.h.p. at the cost of accepting tolerances \psi and \phi in the satisfaction of the ROI and budget constraints, respectively. This algorithm actually mitigates the risks due to the constraints violations without precluding the convergence to the optimal solution. Finally, we experimentally compare our algorithms in terms of pseudo-regret/constraint-violation tradeoff in settings generated from real-world data, showing the importance of adopting safety constraints in practice and the effectiveness of our algorithms.
Ningyuan Huang, Soledad Villar(参考訳) グラフニューラルネットワークは、グラフ上の関数を学習するために設計されている。 通常、関連する対象関数は置換による作用に関して不変である。 したがって、いくつかのグラフニューラルネットワークアーキテクチャの設計はグラフ同型アルゴリズムにインスパイアされている。 古典的なweisfeiler-lehmanアルゴリズム(wl)は、色調整に基づくグラフ同型テストであり、グラフニューラルネットワークの研究に関係した。 WLテストは、$k$-WLとして知られる高階テストの階層に一般化することができる。 この階層は、グラフニューラルネットワークの表現力を特徴づけ、グラフニューラルネットワークアーキテクチャの設計を刺激するために使われてきた。 WL階層のいくつかの変種が文献に現れる。 この短い注記の目標は教育的かつ実践的であり、wlとフォークロア・wlの定式化の違いを説明し、文献における既存の議論の要点を指摘する。 例を可視化することで, 定式化の違いを照らし出す。

Graph neural networks are designed to learn functions on graphs. Typically, the relevant target functions are invariant with respect to actions by permutations. Therefore the design of some graph neural network architectures has been inspired by graph-isomorphism algorithms. The classical Weisfeiler-Lehman algorithm (WL) -- a graph-isomorphism test based on color refinement -- became relevant to the study of graph neural networks. The WL test can be generalized to a hierarchy of higher-order tests, known as $k$-WL. This hierarchy has been used to characterize the expressive power of graph neural networks, and to inspire the design of graph neural network architectures. A few variants of the WL hierarchy appear in the literature. The goal of this short note is pedagogical and practical: We explain the differences between the WL and folklore-WL formulations, with pointers to existing discussions in the literature. We illuminate the differences between the formulations by visualizing an example.
Cole Hawkins, Alec Koppel, Zheng Zhang(参考訳) ベイズ推論における基本的な課題は、ターゲット分布の効率的な表現である。 多くの非パラメトリックなアプローチは、マルコフ・チェイン・モンテカルロ (MCMC) の変種を用いて多数の点をサンプリングする。 我々は、ksd閾値を超える後方サンプルのみを保持するmcmc変異体を提案し、これをksd薄型化と呼ぶ。 ksdしきい値パラメータ、サンプルサイズ、その他の問題パラメータの関数として、複数のksd薄型化の設定の収束と複雑性のトレードオフを確立する。 最後に, オンライン非パラメトリックベイズ法との比較を行い, 低複雑度後部表現を生成し, 優れた一貫性/複雑度トレードオフを観測する。 コードはgithub.com/colehawkins/KSD-Thinningで入手できる。

A fundamental challenge in Bayesian inference is efficient representation of a target distribution. Many non-parametric approaches do so by sampling a large number of points using variants of Markov Chain Monte Carlo (MCMC). We propose an MCMC variant that retains only those posterior samples which exceed a KSD threshold, which we call KSD Thinning. We establish the convergence and complexity tradeoffs for several settings of KSD Thinning as a function of the KSD threshold parameter, sample size, and other problem parameters. Finally, we provide experimental comparisons against other online nonparametric Bayesian methods that generate low-complexity posterior representations, and observe superior consistency/complexity tradeoffs. Code is available at github.com/colehawkins/KSD-Thinning.
Attila Nagy, Patrick Nanys, Bal\'azs Frey Konr\'ad, Bence Bial, Judit \'Acs(参考訳) 我々は、Hunglish2コーパスを用いて、ハンガリー語と英語とハンガリー語のトランスフォーマーベースのニューラルマシン翻訳モデルを訓練する。 我々の最良のモデルはハンガリー語で40.0点、英語とハンガリー語で33.4点である。 さらに、ニューラルマシン翻訳のための構文ベースの拡張に関する継続的な研究結果を示す。 コードとモデルの両方が公開されています。

We train Transformer-based neural machine translation models for Hungarian-English and English-Hungarian using the Hunglish2 corpus. Our best models achieve a BLEU score of 40.0 on HungarianEnglish and 33.4 on English-Hungarian. Furthermore, we present results on an ongoing work about syntax-based augmentation for neural machine translation. Both our code and models are publicly available.
Snehal Khandve, Vedangi Wagh, Apurva Wani, Isha Joshi, Raviraj Joshi(参考訳) テキスト分類アルゴリズムは、単語や句間の複雑な関係を調査し、文書の解釈を推論しようとする。 ここ数年、これらのアルゴリズムは著しく進歩した。 トランスフォーマーアーキテクチャと文エンコーダは、自然言語処理タスクにおいて優れた結果をもたらすことが証明されている。 しかし、これらのアーキテクチャの大きな制限は、数百語以上のテキストの適用性である。 本稿では,長い文書分類のための階層的転送学習手法について検討する。 提案手法では,トランスフォーマー(BERT)から事前学習したユニバーサル文エンコーダ(USE)と双方向エンコーダ(BERT)を階層的に使い,より効率的な表現を実現する。 提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。 そして、各チャンクの出力表現をLSTMまたはCNNからなる浅いニューラルネットワークを介して伝播してテキストデータを分類する。 これらの拡張は6つのベンチマークデータセットで評価される。 USE + CNN/LSTM はスタンドアローンのベースラインよりも優れていることを示す。 一方、BERT + CNN/LSTMはスタンドアローンのものと同等に動作する。 しかし、BERTの注意機構の二次的複雑さを避けるため、階層的なBERTモデルは依然として望ましい。 階層的なアプローチに加えて、この研究は、長い文書分類のためのUSE、BERT、HAN、Longformer、BigBirdといった異なるディープラーニングアルゴリズムの比較も提供する。 Longformerのアプローチは、ほとんどのデータセットで一貫してうまく機能する。

Text classification algorithms investigate the intricate relationships between words or phrases and attempt to deduce the document's interpretation. In the last few years, these algorithms have progressed tremendously. Transformer architecture and sentence encoders have proven to give superior results on natural language processing tasks. But a major limitation of these architectures is their applicability for text no longer than a few hundred words. In this paper, we explore hierarchical transfer learning approaches for long document classification. We employ pre-trained Universal Sentence Encoder (USE) and Bidirectional Encoder Representations from Transformers (BERT) in a hierarchical setup to capture better representations efficiently. Our proposed models are conceptually simple where we divide the input data into chunks and then pass this through base models of BERT and USE. Then output representation for each chunk is then propagated through a shallow neural network comprising of LSTMs or CNNs for classifying the text data. These extensions are evaluated on 6 benchmark datasets. We show that USE + CNN/LSTM performs better than its stand-alone baseline. Whereas the BERT + CNN/LSTM performs on par with its stand-alone counterpart. However, the hierarchical BERT models are still desirable as it avoids the quadratic complexity of the attention mechanism in BERT. Along with the hierarchical approaches, this work also provides a comparison of different deep learning algorithms like USE, BERT, HAN, Longformer, and BigBird for long document classification. The Longformer approach consistently performs well on most of the datasets.
Hanwei Xu, Yujun Chen, Yulun Du, Nan Shao, Yanggang Wang, Haiyu Li, Zhilin Yang(参考訳) タスクスケーリングとゼロショットプロンプトに着目し,ゼロショット一般化のためのマルチタスク事前学習手法ZeroPromptを提案する。 以前のモデルはわずか数十タスクでトレーニングされていますが、実際のデータを使って初めて1000タスクにスケールします。 これは、タスクのスケーリングがモデルスケーリングの効率的な代替になり得るという重要な発見に繋がる。 その結果,タスクスケーリングはFLOPの30倍のトレーニング効率を向上できることがわかった。 さらに,遺伝的アルゴリズムを組み込んだプロンプト手法を提案し,未発見のタスクに対して最適なプロンプトを自動的に検索する。 実証的には、ZeroPromptは、さまざまな学術的および生産的データセットにわたるゼロショット学習の効率性とパフォーマンスを大幅に改善する。

We propose a multitask pretraining approach ZeroPrompt for zero-shot generalization, focusing on task scaling and zero-shot prompting. While previous models are trained on only a few dozen tasks, we scale to 1,000 tasks for the first time using real-world data. This leads to a crucial discovery that task scaling can be an efficient alternative to model scaling; i.e., the model size has little impact on performance with an extremely large number of tasks. Our results show that task scaling can substantially improve training efficiency by 30 times in FLOPs. Moreover, we present a prompting method that incorporates a genetic algorithm to automatically search for the best prompt for unseen tasks, along with a few other improvements. Empirically, ZeroPrompt substantially improves both the efficiency and the performance of zero-shot learning across a variety of academic and production datasets.
Li Lin, Yixin Cao, Lifu Huang, Shuang Li, Xuming Hu, Lijie Wen and Jianmin Wang(参考訳) Future Event Generationは、前回のイベントが持つ流動的で合理的な未来のイベント記述を生成することを目的としている。 イベントストーリー全体の一貫性を維持するには、流麗なテキスト生成だけでなく、常識的な推論も必要です。 しかし、既存のFEGメソッドは、生成プロセスに論理的制約を加えることなく、繰り返しまたは一般的なイベントに簡単に閉じ込められる。 本稿では,コモンセンス推論モデル (IM) とイベント生成モデル (GM) を組み合わせた,説明可能な新しいFEGフレームワークを提案する。 IMは、コモンセンス知識グラフATOMICで事前訓練され、前回の出来事を解釈し、コモンセンス推論を行い、意図、反応、ニーズといったキャラクター心理学を潜伏変数として明らかにする。 さらにgmは、コモンセンスの知識を、ロジスティックに一貫性のある将来のイベントの発生を導くための手段として捉えている。 ユニークなメリットとして、commonsenseプロンプトはさらにテキスト記述にデコードされ、将来のイベントの説明が得られる。 自動的および人的評価は,我々のアプローチが強いベースラインよりも一貫性,特異性,論理的将来事象を発生させることができることを示す。

Future Event Generation aims to generate fluent and reasonable future event descriptions given preceding events. It requires not only fluent text generation but also commonsense reasoning to maintain the coherence of the entire event story. However, existing FEG methods are easily trapped into repeated or general events without imposing any logical constraint to the generation process. In this paper, we propose a novel explainable FEG framework that consists of a commonsense inference model (IM) and an event generation model (GM). The IM, which is pre-trained on a commonsense knowledge graph ATOMIC, learns to interpret the preceding events and conducts commonsense reasoning to reveal the characters psychology such as intent, reaction, and needs as latent variables. GM further takes the commonsense knowledge as prompts to guide and enforce the generation of logistically coherent future events. As unique merit, the commonsense prompts can be further decoded into textual descriptions, yielding explanations for the future event. Automatic and human evaluation demonstrate that our approach can generate more coherent, specific, and logical future events than the strong baselines.
Mehmet Efruz Karabulut, K. Vijay-Shanker(参考訳) 生物医学文献の急速な成長は、生物医学のテキスト採掘分野において多くの進歩をもたらした。 膨大な情報のうち、生体医学的な記事の要約は簡単にアクセスできる情報源である。 しかし, 背景, 対象, 方法, 結果, 結論のカテゴリの1つを含む修辞的部分を記述する構造化抽象文の数は, いまだに少なからず少ない。 生物医学的要約における貴重な情報の探索は、逐次文分類タスクの改善により、迅速に行うことができる。 ディープラーニングベースのモデルは、このタスクで重要な結果を得る上で、優れたパフォーマンス/ポテンシャルを持つ。 しかし、それらはしばしば複雑すぎ、特定のデータに過度に適合する。 本稿では,SSN-4モデルと呼ぶ最先端のディープラーニングモデルについて検討する。 ssn-4モデルの様々なコンポーネントを調査し,性能と複雑性のトレードオフについて検討した。 我々は、このモデルがRandomized Controlled Trials(RCT)データセット以外の新しいデータセットにどのように一般化するかを検討する。 我々は、パフォーマンスを改善するために、単語埋め込みをタスクに調整できるかどうかという疑問に対処します。 さらに,第1モデルの混乱を解消する第2モデルを開発した。 その結果, SSN-4 モデルでは RCT データセットをはるかに超えた一般化は得られなかった。

Rapid growth of the biomedical literature has led to many advances in the biomedical text mining field. Among the vast amount of information, biomedical article abstracts are the easily accessible sources. However, the number of the structured abstracts, describing the rhetorical sections with one of Background, Objective, Method, Result and Conclusion categories is still not considerable. Exploration of valuable information in the biomedical abstracts can be expedited with the improvements in the sequential sentence classification task. Deep learning based models has great performance/potential in achieving significant results in this task. However, they can often be overly complex and overfit to specific data. In this project, we study a state-of-the-art deep learning model, which we called SSN-4 model here. We investigate different components of the SSN-4 model to study the trade-off between the performance and complexity. We explore how well this model generalizes to a new data set beyond Randomized Controlled Trials (RCT) dataset. We address the question that whether word embeddings can be adjusted to the task to improve the performance. Furthermore, we develop a second model that addresses the confusion pairs in the first model. Results show that SSN-4 model does not appear to generalize well beyond RCT dataset.
Rafael M. O. Cruz and Woshington V. de Sousa and George D. C. Cavalcanti(参考訳) 毎日大量のデータが生成されるため、ソーシャルネットワークではヘイトスピーチが大きな問題となっている。 最近の研究は、憎しみのあるポストと単に皮肉や攻撃的な言語を区別するために必要なニュアンスを扱う機械学習(ML)の有用性を示している。 ヘイトスピーチ検出のための多くのMLソリューションは、テキストから特徴を抽出する方法や、採用した分類アルゴリズムを変更することによって提案されている。 しかし、ほとんどの研究は1種類の特徴抽出と分類アルゴリズムのみを考慮する。 この研究は、複数の特徴抽出技法と異なる分類モデルの組み合わせが必要であると主張している。 本稿では,複数の特徴抽出手法と分類手法の関係を分析し,それらの相互補完方法を理解する枠組みを提案する。 このフレームワークは、ヘイトスピーチ検出のための堅牢な多重分類器システム(MCS)を構成するための補完手法のサブセットを選択するために使用される。 4つのヘイト音声分類データセットを考慮した実験により,提案手法が高パフォーマンスmcsの分析と設計に有望な手法であることを実証した。 提案手法を用いて得られたmcsシステムは,全モデルと均質選択ヒューリスティックの組合せを著しく上回り,適切な選択スキームを持つことの重要性を示した。 ソースコード、図、データセットの分割はGitHubリポジトリで見ることができる。

Hate speech is a major issue in social networks due to the high volume of data generated daily. Recent works demonstrate the usefulness of machine learning (ML) in dealing with the nuances required to distinguish between hateful posts from just sarcasm or offensive language. Many ML solutions for hate speech detection have been proposed by either changing how features are extracted from the text or the classification algorithm employed. However, most works consider only one type of feature extraction and classification algorithm. This work argues that a combination of multiple feature extraction techniques and different classification models is needed. We propose a framework to analyze the relationship between multiple feature extraction and classification techniques to understand how they complement each other. The framework is used to select a subset of complementary techniques to compose a robust multiple classifiers system (MCS) for hate speech detection. The experimental study considering four hate speech classification datasets demonstrates that the proposed framework is a promising methodology for analyzing and designing high-performing MCS for this task. MCS system obtained using the proposed framework significantly outperforms the combination of all models and the homogeneous and heterogeneous selection heuristics, demonstrating the importance of having a proper selection scheme. Source code, figures, and dataset splits can be found in the GitHub repository: https://github.com/Menelau/Hate-Speech-MCS.
Akira Taniguchi, Hiroaki Murakami, Ryo Ozaki, Tadahiro Taniguchi(参考訳) ヒトの幼児は、音韻分布の統計的特性と他の感覚刺激の共起に基づいて、言語に関する最小限の事前知識から言語語彙を取得する。 本研究では,音韻情報を分布キューとして利用し,オブジェクト情報を共起キューとして利用することにより,音声単位の完全教師なし学習手法を提案する。 提案手法は,(1)教師なし学習を用いた音声信号から単語や音素を取得するだけでなく,(2)複数のモーダル性(視覚,触覚,聴覚など)に基づくオブジェクト情報も同時に利用することができる。 提案手法は,音韻特徴から音素と単語を検出するnpb-daa(nonparametric bayesian double articulation analyzer)と,オブジェクトから得られたマルチモーダル情報を分類するmlda(multimodal latent dirichlet allocation)に基づいている。 実験では,提案手法はベースライン法よりも高い単語発見性能を示した。 特に、対象の特徴を表す単語(名詞や形容詞に対応する単語)を正確に分割した。 さらに,言語情報の重要性の違いによる学習性能への影響について検討した。 単語モダリティの重みが増加すると,固定条件と比較してさらに性能が向上した。

Human infants acquire their verbal lexicon from minimal prior knowledge of language based on the statistical properties of phonological distributions and the co-occurrence of other sensory stimuli. In this study, we propose a novel fully unsupervised learning method discovering speech units by utilizing phonological information as a distributional cue and object information as a co-occurrence cue. The proposed method can not only (1) acquire words and phonemes from speech signals using unsupervised learning, but can also (2) utilize object information based on multiple modalities (i.e., vision, tactile, and auditory) simultaneously. The proposed method is based on the Nonparametric Bayesian Double Articulation Analyzer (NPB-DAA) discovering phonemes and words from phonological features, and Multimodal Latent Dirichlet Allocation (MLDA) categorizing multimodal information obtained from objects. In the experiment, the proposed method showed higher word discovery performance than the baseline methods. In particular, words that expressed the characteristics of the object (i.e., words corresponding to nouns and adjectives) were segmented accurately. Furthermore, we examined how learning performance is affected by differences in the importance of linguistic information. When the weight of the word modality was increased, the performance was further improved compared to the fixed condition.
Wu Zhang(参考訳) 本稿では,文のアライメントを高速化する分割・コンカレントアルゴリズムを提案する。 我々は、外部のバイリンガル文の埋め込みを利用して、並列テキストをアライメントするための正確なハードデミッタを見つける。 我々はモンテカルロシミュレーションを用いて、この分割・対数アルゴリズムを用いて、任意の二次時間複雑文アライメントアルゴリズムを平均時間複雑度O(NlogN)のアルゴリズムに変換することを実験的に示す。 標準的なOCR生成データセットでは,Bleualignベースラインを3F1ポイント改善する。 さらに、計算資源が制限される場合、アルゴリズムは実際にはvecalignよりも高速である。

In this paper, we introduce a divide-and-conquer algorithm to improve sentence alignment speed. We utilize external bilingual sentence embeddings to find accurate hard delimiters for the parallel texts to be aligned. We use Monte Carlo simulation to show experimentally that using this divide-and-conquer algorithm, we can turn any quadratic time complexity sentence alignment algorithm into an algorithm with average time complexity of O(NlogN). On a standard OCR-generated dataset, our method improves the Bleualign baseline by 3 F1 points. Besides, when computational resources are restricted, our algorithm is faster than Vecalign in practice.
Weizhi Xu, Junfei Wu, Qiang Liu, Shu Wu, Liang Wang(参考訳) 偽ニュースの拡散と有害性は、インターネット上で重大な問題であり、偽ニュースの自動検出の開発を後押ししている。 本稿では,証拠に基づく偽ニュース検出に焦点をあて,複数の証拠を用いてニュースの正確性(すなわちクレーム)を調査する。 従来のほとんどの手法は、まずシーケンシャルモデルを用いて意味情報を埋め込み、異なる注意機構に基づいてクレームと証拠の相互作用をキャプチャする。 効果はあるものの、2つの大きな弱点に悩まされている。 第一に、シーケンシャルなモデルの固有の欠点のために、彼らは検証の証拠にバラバラに散在している関連する情報を統合できない。 第二に、彼らは役に立たない、あるいは有害な証拠に含まれる多くの冗長な情報を無視する。 これらの問題を解決するために,グラフベースのsEmantic sTructureマイニングフレームワークを提案する。 具体的には,クレームやエビデンスをシーケンスとして扱う既存の作業とは違って,それらをグラフ構造データとしてモデル化し,近所の伝播を通じて分散した関連スニペット間の長距離的意味依存性を捉える。 文脈意味情報を得た後、グラフ構造学習によって情報冗長性を低減する。 最後に、細粒度のセマンティック表現は、予測のために下流のクレーム-エビデンス相互作用モジュールに入力される。 包括的な実験は、最先端技術よりもGETの方が優れていることを示した。

The prevalence and perniciousness of fake news has been a critical issue on the Internet, which stimulates the development of automatic fake news detection in turn. In this paper, we focus on the evidence-based fake news detection, where several evidences are utilized to probe the veracity of news (i.e., a claim). Most previous methods first employ sequential models to embed the semantic information and then capture the claim-evidence interaction based on different attention mechanisms. Despite their effectiveness, they still suffer from two main weaknesses. Firstly, due to the inherent drawbacks of sequential models, they fail to integrate the relevant information that is scattered far apart in evidences for veracity checking. Secondly, they neglect much redundant information contained in evidences that may be useless or even harmful. To solve these problems, we propose a unified Graph-based sEmantic sTructure mining framework, namely GET in short. Specifically, different from the existing work that treats claims and evidences as sequences, we model them as graph-structured data and capture the long-distance semantic dependency among dispersed relevant snippets via neighborhood propagation. After obtaining contextual semantic information, our model reduces information redundancy by performing graph structure learning. Finally, the fine-grained semantic representations are fed into the downstream claim-evidence interaction module for predictions. Comprehensive experiments have demonstrated the superiority of GET over the state-of-the-arts.
Nanfei Jiang, Xu Zhao, Chaoyang Zhao, Yongqi An, Ming Tang, Jinqiao Wang(参考訳) 構造ニューラルネットワークのプルーニングは、最終的な出力精度よりも重要度の低いフィルタをプルーニングすることで、深層畳み込みニューラルネットワーク(cnns)の冗長チャネルを除去することを目的としている。 刈り込み後の性能劣化を低減するため, スパース正則化による損失を利用して, 構造的疎度を生成する方法が多い。 本稿では,これらの疎性学習に基づく手法を解析し,未処理チャネルの正規化は不要であることを示す。 さらに、ネットワークの容量を制限し、不適合につながる。 そこで本稿では,pruning-aware sparse regularization を用いた新しいpruning法である masksparsity を提案する。 masksparsityは、モデルの全フィルタではなく、プルーニングマスクによって選択された特定のフィルタに細粒度のスパース正規化を課す。 MaskSparityの細粒度スパース正規化の前には、グローバルスパース正規化の実行など、プルーニングマスクの取得に多くの方法を用いることができる。 MaskSparsityは60.34%のパラメータを削除し、ResNet-110で63.03%のFLOPを削減した。 ILSVRC-2012では、MaskSparsityはResNet-50上で51.07%以上のFLOPを削減し、トップ1の精度は0.76%しか失われていない。 コードはhttps://github.com/CASIA-IVA-Lab/MaskSparsityで公開されている。 さらに、MaskSparityのコードを、https://gitee.com/casia_iva_engineer/easyprunerでPyTorchプルーニングツールキットEasyPrunerに統合しました。

Structural neural network pruning aims to remove the redundant channels in the deep convolutional neural networks (CNNs) by pruning the filters of less importance to the final output accuracy. To reduce the degradation of performance after pruning, many methods utilize the loss with sparse regularization to produce structured sparsity. In this paper, we analyze these sparsity-training-based methods and find that the regularization of unpruned channels is unnecessary. Moreover, it restricts the network's capacity, which leads to under-fitting. To solve this problem, we propose a novel pruning method, named MaskSparsity, with pruning-aware sparse regularization. MaskSparsity imposes the fine-grained sparse regularization on the specific filters selected by a pruning mask, rather than all the filters of the model. Before the fine-grained sparse regularization of MaskSparity, we can use many methods to get the pruning mask, such as running the global sparse regularization. MaskSparsity achieves 63.03%-FLOPs reduction on ResNet-110 by removing 60.34% of the parameters, with no top-1 accuracy loss on CIFAR-10. On ILSVRC-2012, MaskSparsity reduces more than 51.07% FLOPs on ResNet-50, with only a loss of 0.76% in the top-1 accuracy. The code is released at https://github.com/CASIA-IVA-Lab/MaskSparsity. Moreover, we have integrated the code of MaskSparity into a PyTorch pruning toolkit, EasyPruner, at https://gitee.com/casia_iva_engineer/easypruner.
Xiaofeng Liu, Fangxu Xing, Thibault Marin, Georges El Fakhri, Jonghye Woo(参考訳) 医用画像データから見える病変や臓器境界はしばしば曖昧であり、結果として、複数の読み手のデリゲート、すなわちアレエータ的不確かさの源に大きな変化をもたらす。 特に,mri画像データを用いた手指注記のobserver間変動の定量化は,様々な診断・治療課題の基準設定において重要な役割を担っている。 しかし、ほとんどのセグメンテーション手法は単に画像から単一のセグメンテーションマップへのマッピングをモデル化し、注釈者の意見の不一致を考慮していない。 サーバ間の変動を精度を犠牲にすることなく考慮するために,特定のMR画像が与えられた場合の可視セグメンテーションマップの分布をモデル化する,新しい変分推論フレームワークを提案する。 具体的には、マルチリーダーの可変性を符号化し、画像データに固有の情報損失を相殺するために潜伏ベクトルを用いる。 次に,変分オートエンコーダネットワークを適用し,そのエビデンスローバウンド(ELBO)を最適化して,MR画像から得られるセグメンテーションマップの分布を効率的に近似する。 6) qubiq brain growth mri segmentation datasets with seven annotatorsを用いて実験を行った結果,本手法の有効性が示された。

Lesions or organ boundaries visible through medical imaging data are often ambiguous, thus resulting in significant variations in multi-reader delineations, i.e., the source of aleatoric uncertainty. In particular, quantifying the inter-observer variability of manual annotations with Magnetic Resonance (MR) Imaging data plays a crucial role in establishing a reference standard for various diagnosis and treatment tasks. Most segmentation methods, however, simply model a mapping from an image to its single segmentation map and do not take the disagreement of annotators into consideration. In order to account for inter-observer variability, without sacrificing accuracy, we propose a novel variational inference framework to model the distribution of plausible segmentation maps, given a specific MR image, which explicitly represents the multi-reader variability. Specifically, we resort to a latent vector to encode the multi-reader variability and counteract the inherent information loss in the imaging data. Then, we apply a variational autoencoder network and optimize its evidence lower bound (ELBO) to efficiently approximate the distribution of the segmentation map, given an MR image. Experimental results, carried out with the QUBIQ brain growth MRI segmentation datasets with seven annotators, demonstrate the effectiveness of our approach.
Wenlong Huang, Pieter Abbeel, Deepak Pathak, Igor Mordatch(参考訳) 大規模言語モデル(llm)によって学習された世界知識は、インタラクティブな環境での動作に使用できるか? 本稿では,自然言語で表現された高レベルタスク(例:「メーク朝食」)を,選択された実行可能なステップ(例:「オープン冷蔵庫」)に基盤付ける可能性を検討する。 事前の作業は、行動方法の明確なステップバイステップの例から学ぶことに集中していましたが、事前訓練済みのLMが十分に大きく、適切に誘導されている場合、さらにトレーニングすることなく、ハイレベルなタスクを低レベルな計画に効果的に分解できることに驚きました。 しかし、LSMが生み出した計画は、しばしば許容可能な行動に正確にマッピングできない。 そこで本研究では,既存の実演の条件と意味的に計画を許容行動に翻訳する手法を提案する。 最近のVirtualHome環境における評価は,LLMベースライン上での実行可能性を大幅に向上することを示す。 人的評価は,実行可能性と正しさのトレードオフを明らかにするが,言語モデルから実行可能な知識を抽出する上で有望な兆候を示す。 webサイト://huangwl18.github.io/language-planner

Can world knowledge learned by large language models (LLMs) be used to act in interactive environments? In this paper, we investigate the possibility of grounding high-level tasks, expressed in natural language (e.g. "make breakfast"), to a chosen set of actionable steps (e.g. "open fridge"). While prior work focused on learning from explicit step-by-step examples of how to act, we surprisingly find that if pre-trained LMs are large enough and prompted appropriately, they can effectively decompose high-level tasks into low-level plans without any further training. However, the plans produced naively by LLMs often cannot map precisely to admissible actions. We propose a procedure that conditions on existing demonstrations and semantically translates the plans to admissible actions. Our evaluation in the recent VirtualHome environment shows that the resulting method substantially improves executability over the LLM baseline. The conducted human evaluation reveals a trade-off between executability and correctness but shows a promising sign towards extracting actionable knowledge from language models. Website at https://huangwl18.github.io/language-planner
B\'alint Csan\'ady, Andr\'as Luk\'acs(参考訳) ディアクリティックスの復元は、ラテン・アルファベットベースの英語によるインターネット言語環境において、ユビキタスなタスクとなっている。 本稿では,文字レベルで機能する1次元拡張畳み込みに基づく小さなフットプリントについて述べる。 1次元拡張畳み込みニューラルネットワークに基づく解は,再帰的ニューラルネットワークに基づくモデルや,ダイアクリティックス修復作業のための言語モデルに対する競合的な代替手段であることがわかった。 我々のソリューションは、同様のサイズのモデルの性能を超え、より大きなモデルと競合する。 私たちのソリューションの特別な特徴は、Webブラウザ上でもローカルに実行されることです。 このブラウザベースの実装の動作例も提供します。 本モデルはハンガリー語に重点を置き,異なるコーポラ上で評価される。 3つのハンガリーコーポラに対して,モデルの一般化力に関する比較測定を行った。 また,コーパスに基づく自己指導訓練の限界を理解するために,誤りを分析した。

Diacritics restoration has become a ubiquitous task in the Latin-alphabet-based English-dominated Internet language environment. In this paper, we describe a small footprint 1D dilated convolution-based approach which operates on a character-level. We find that solutions based on 1D dilated convolutional neural networks are competitive alternatives to models based on recursive neural networks or linguistic modeling for the task of diacritics restoration. Our solution surpasses the performance of similarly sized models and is also competitive with larger models. A special feature of our solution is that it even runs locally in a web browser. We also provide a working example of this browser-based implementation. Our model is evaluated on different corpora, with emphasis on the Hungarian language. We performed comparative measurements about the generalization power of the model in relation to three Hungarian corpora. We also analyzed the errors to understand the limitation of corpus-based self-supervised training.
V\'esteinn Sn{\ae}bjarnarson, Haukur Barri S\'imonarson, P\'etur Orri Ragnarsson, Svanhv\'it Lilja Ing\'olfsd\'ottir, Haukur P\'all J\'onsson, Vilhj\'almur {\TH}orsteinsson, Hafsteinn Einarsson(参考訳) 我々はアイスランド語のためのいくつかの言語モデルを訓練し、例えばIceBERTは、音声タグ付け、名前付きエンティティ認識、文法的誤り検出、選挙区解析など、様々な下流タスクで最先端のパフォーマンスを達成する。 モデルをトレーニングするために、アイスランドのトップレベルドメイン(tld)をターゲットとした、オンライン上の高品質テキストのコレクションであるアイスランド共通クロールコーパス(ic3)を新たに導入した。 他のいくつかの公開データソースも、合計16GBのアイスランド語のテキストのために収集されている。 アイスランドにおけるモデル性能の評価を高め,基準値のバーを引き上げるために,WinoGrandeデータセットを共参照分解のために翻訳し,適応する。 これらの取り組みを通じて、キュレートされたコーパスで訓練されたモデルと比較することにより、ロー・ミディアム・リソース言語に対するNLPアプリケーションにおける最先端の結果を達成するのに十分なクロールコーパスが十分であることを示す。 さらに、既存の多言語モデルを用いた初期化モデルにより、ダウンストリームタスクの最先端結果が得られることを示す。

We train several language models for Icelandic, including IceBERT, that achieve state-of-the-art performance in a variety of downstream tasks, including part-of-speech tagging, named entity recognition, grammatical error detection and constituency parsing. To train the models we introduce a new corpus of Icelandic text, the Icelandic Common Crawl Corpus (IC3), a collection of high quality texts found online by targeting the Icelandic top-level-domain (TLD). Several other public data sources are also collected for a total of 16GB of Icelandic text. To enhance the evaluation of model performance and to raise the bar in baselines for Icelandic, we translate and adapt the WinoGrande dataset for co-reference resolution. Through these efforts we demonstrate that a properly cleaned crawled corpus is sufficient to achieve state-of-the-art results in NLP applications for low to medium resource languages, by comparison with models trained on a curated corpus. We further show that initializing models using existing multilingual models can lead to state-of-the-art results for some downstream tasks.
