このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220420となっている論文です。

PDF登録状況(公開日: 20220420)

TitleAuthorsAbstract論文公表日・翻訳日
# リアルタイムセグメンテーションネットワークは遅延に注意すべきである

Real-Time Segmentation Networks should be Latency Aware ( http://arxiv.org/abs/2004.02574v2 )

ライセンス: Link先を確認
Evann Courdier and Francois Fleuret(参考訳) シーンセグメンテーションシステムが視覚的に正確な結果に達するにつれて、最近の多くの論文はこれらのネットワークアーキテクチャをより速く、より小さく、より効率的にすることに焦点を当てている。 特に、研究はしばしばリアルタイムシステムの設計を目標としている。 この目標を達成することは、自動運転車やロボットのリアルタイムビデオ理解の文脈において特に重要である。 本稿では,共用平均交叉平均(miou)の性能指標が,これらのネットワークがリアルタイムに動作した場合の真の性能を推定するために必要な情報を完全に捉えていないことを論じる。 本稿では,セグメント化タスクにおける目的の変更とその欠落情報をカプセル化する指標を提案する。ネットワークが処理を完了した時点で,将来の入力フレームにマッチする将来の出力セグメントマップの予測を行う。 関連するレイテンシを意識したメトリクスを導入し、ランキングを決定する。 我々は,近年のネットワークの遅延タイミング実験を行い,提案課題におけるネットワークの性能評価を行った。 本稿では,マルチフレームの入力と初期畳み込み層でのキャパシティ向上により,タスクをより良く実行するシーンセグメンテーションネットワークの改善を提案する。

As scene segmentation systems reach visually accurate results, many recent papers focus on making these network architectures faster, smaller and more efficient. In particular, studies often aim at designingreal-time'systems. Achieving this goal is particularly relevant in the context of real-time video understanding for autonomous vehicles, and robots. In this paper, we argue that the commonly used performance metric of mean Intersection over Union (mIoU) does not fully capture the information required to estimate the true performance of these networks when they operate inreal-time'. We propose a change of objective in the segmentation task, and its associated metric that encapsulates this missing information in the following way: We propose to predict the future output segmentation map that will match the future input frame at the time when the network finishes the processing. We introduce the associated latency-aware metric, from which we can determine a ranking. We perform latency timing experiments of some recent networks on different hardware and assess the performances of these networks on our proposed task. We propose improvements to scene segmentation networks to better perform on our task by using multi-frames input and increasing capacity in the initial convolutional layers.
翻訳日:2022-12-16 06:53:19 公開日:2022-04-20
# 非ラベルデータに基づくディープネットワークによる自己学習の理論解析

Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data ( http://arxiv.org/abs/2010.03622v5 )

ライセンス: Link先を確認
Colin Wei, Kendrick Shen, Yining Chen, Tengyu Ma(参考訳) 以前に学習した別のモデルによって予測された擬似ラベルに適合するようにモデルを訓練する自己学習アルゴリズムは、ニューラルネットワークを使用してラベルのないデータで学ぶことに成功している。 しかし、現在の自己学習の理論的理解は線形モデルにのみ適用される。 本研究は,半教師付き学習,教師なしドメイン適応,教師なし学習のための深層ネットワークを用いた自己学習の統一的理論解析を提供する。 分析の核心は、単純だが現実的な「拡張」仮定であり、データの低確率部分集合は、その部分集合に対して大きな確率で近傍に拡張しなければならない、というものである。 また、異なるクラスの例の近傍は最小重なりを持つと仮定する。 これらの仮定の下では、自己学習と入力整合性正規化に基づく人口目標の最小化が、地道ラベルに関して高い精度を達成できることを示す。 オフザシェルフ一般化境界を用いて、この結果をマージンとリプシッツネスの多項式であるニューラルネットのサンプリング複雑性保証に変換する。 本研究は,入力整合正則化を用いた自己学習アルゴリズムの実証的成功を説明するのに役立つ。

Self-training algorithms, which train a model to fit pseudolabels predicted by another previously-learned model, have been very successful for learning with unlabeled data using neural networks. However, the current theoretical understanding of self-training only applies to linear models. This work provides a unified theoretical analysis of self-training with deep networks for semi-supervised learning, unsupervised domain adaptation, and unsupervised learning. At the core of our analysis is a simple but realistic "expansion" assumption, which states that a low probability subset of the data must expand to a neighborhood with large probability relative to the subset. We also assume that neighborhoods of examples in different classes have minimal overlap. We prove that under these assumptions, the minimizers of population objectives based on self-training and input-consistency regularization will achieve high accuracy with respect to ground-truth labels. By using off-the-shelf generalization bounds, we immediately convert this result to sample complexity guarantees for neural nets that are polynomial in the margin and Lipschitzness. Our results help explain the empirical successes of recently proposed self-training algorithms which use input consistency regularization.
翻訳日:2022-10-09 22:26:59 公開日:2022-04-20
# リカレントニューラルネットワークを用いた心理的タスクにおける人間の意思決定予測

Predicting human decision making in psychological tasks with recurrent neural networks ( http://arxiv.org/abs/2010.11413v3 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi(参考訳) 伝統的な時系列とは異なり、人間の意思決定の行動系列は通常、信念、欲望、意図、心の理論、つまり他人が考えていることなど多くの認知過程を伴う。 これにより、人間の意思決定を予測することは、基礎となる心理的メカニズムに無知に扱うことが困難になる。 本稿では,long short-term memory network(lstm)に基づくリカレントニューラルネットワークアーキテクチャを用いて,ゲーム活動に携わる被験者の行動の時系列を予測することを提案する。 本研究では,168,386個の個別決定からなる反復囚人のジレンマに関する8つの文献から得られた人間のデータを照合し,各9つの行動の行動軌跡8,257に処理した。 同様に、健常者を対象としたアイオワ・ギャンブリング・タスクの10種類の実験から、95の行動の617の軌跡を照合した。 我々は行動データに基づいて予測ネットワークを訓練し,アイオワ・ギャンブル・タスクの単一エージェントシナリオと反復囚人のジレンマのマルチエージェントシナリオの両方において,人間の意思決定軌跡を予測するための最先端手法よりも明確な優位性を示す。 また,トップパフォーマーをモデル化するlstmネットワークの重み付けは,成績不良者に比べて分布が広い傾向にあり,さらにバイアスが大きい傾向にあり,各グループで採用されている戦略の分布に対する解釈が示唆されている。

Unlike traditional time series, the action sequences of human decision making usually involve many cognitive processes such as beliefs, desires, intentions, and theory of mind, i.e., what others are thinking. This makes predicting human decision-making challenging to be treated agnostically to the underlying psychological mechanisms. We propose here to use a recurrent neural network architecture based on long short-term memory networks (LSTM) to predict the time series of the actions taken by human subjects engaged in gaming activity, the first application of such methods in this research domain. In this study, we collate the human data from 8 published literature of the Iterated Prisoner's Dilemma comprising 168,386 individual decisions and post-process them into 8,257 behavioral trajectories of 9 actions each for both players. Similarly, we collate 617 trajectories of 95 actions from 10 different published studies of Iowa Gambling Task experiments with healthy human subjects. We train our prediction networks on the behavioral data and demonstrate a clear advantage over the state-of-the-art methods in predicting human decision-making trajectories in both the single-agent scenario of the Iowa Gambling Task and the multi-agent scenario of the Iterated Prisoner's Dilemma. Moreover, we observe that the weights of the LSTM networks modeling the top performers tend to have a wider distribution compared to poor performers, as well as a larger bias, which suggest possible interpretations for the distribution of strategies adopted by each group.
翻訳日:2022-10-04 06:07:18 公開日:2022-04-20
# 人間の性は2次元の身体キーポイント推定で学べるか?

Can Human Sex Be Learned Using Only 2D Body Keypoint Estimations? ( http://arxiv.org/abs/2011.03104v2 )

ライセンス: Link先を確認
Kristijan Bartol and Tomislav Pribanic and David Bojanic and Tomislav Petkovic(参考訳) 本稿では,男女の性認識問題を分析し,2次元キーポイントのみを用いた完全自動分類システムを提案する。 キーポイントは人間の関節を表す。 キーポイントセットは15のジョイントで構成され、openpose 2dキーポイント検出器を用いてキーポイント推定を求める。 入力としてキーポイント,出力としてバイナリラベルを用いて男女を識別する深層学習モデルを学習する。 実験では3DPeopleとPETAという2つの公開データセットを使用します。 PETAデータセットの精度は77%であった。 PETAと3DPeopleのモデルパフォーマンスの詳細を提供する。 ノイズ2次元キーポイント検出が性能に及ぼす影響を計測するために,3dピープルグラウンド真理とノイズキーポイントデータについて実験を行った。 最後に,分類精度に影響を与える要因を抽出し,今後の課題を提案する。 このアプローチの利点は、入力が小さく、アーキテクチャがシンプルであることです。 実験とデータ準備スクリプトを備えたソースコードはgithubから入手できる(https://github.com/kristijanbartol/human-sex-classifier)。

In this paper, we analyze human male and female sex recognition problem and present a fully automated classification system using only 2D keypoints. The keypoints represent human joints. A keypoint set consists of 15 joints and the keypoint estimations are obtained using an OpenPose 2D keypoint detector. We learn a deep learning model to distinguish males and females using the keypoints as input and binary labels as output. We use two public datasets in the experimental section - 3DPeople and PETA. On PETA dataset, we report a 77% accuracy. We provide model performance details on both PETA and 3DPeople. To measure the effect of noisy 2D keypoint detections on the performance, we run separate experiments on 3DPeople ground truth and noisy keypoint data. Finally, we extract a set of factors that affect the classification accuracy and propose future work. The advantage of the approach is that the input is small and the architecture is simple, which enables us to run many experiments and keep the real-time performance in inference. The source code, with the experiments and data preparation scripts, are available on GitHub (https://github.com/kristijanbartol/human-sex-classifier).
翻訳日:2022-09-29 12:16:02 公開日:2022-04-20
# 上肢バイオメカニカルモデルの強化学習制御

Reinforcement Learning Control of a Biomechanical Model of the Upper Extremity ( http://arxiv.org/abs/2011.07105v2 )

ライセンス: Link先を確認
Florian Fischer, Miroslav Bachinski, Markus Klar, Arthur Fleig, J\"org M\"uller(参考訳) 生成可能な無限個の動きのうち、人間は信号依存や一定の運動騒音のような特定の動きの制約を受ける運動時間の最小化などの基準を最適化したものを選択することが一般的である。 これまでのところ、これらの仮定は単純な点質量モデルや平面モデルに対してのみ評価されているが、人間の上肢の完全な骨格モデルにおける到達運動を予測できるかどうかという問題に対処する。 そこで我々は,右指の先端をランダムに配置した3Dターゲットに向かって移動させることにより,強化学習におけるモータバブリング手法を用いて制御ポリシーを学習する。 7つの自由度を含む最先端のバイオメカニカルモデルを用いる。 次元の呪いに対処するために、個々の筋肉の代わりに各自由度で作用する簡易な2階筋モデルを用いる。 その結果, 信号依存・定常運動騒音の仮定は, 運動時間最小化の目的とともに, 人間の上肢の最先端骨格モデルが人間の運動の複雑な現象, 特にFitts' Lawと2/3 Power Lawを再現するのに十分であることが確認された。 この結果は、複雑なヒトの生体力学系の制御は、単純な仮定のセットによって決定可能であり、容易に学習できるという考えを支持している。

Among the infinite number of possible movements that can be produced, humans are commonly assumed to choose those that optimize criteria such as minimizing movement time, subject to certain movement constraints like signal-dependent and constant motor noise. While so far these assumptions have only been evaluated for simplified point-mass or planar models, we address the question of whether they can predict reaching movements in a full skeletal model of the human upper extremity. We learn a control policy using a motor babbling approach as implemented in reinforcement learning, using aimed movements of the tip of the right index finger towards randomly placed 3D targets of varying size. We use a state-of-the-art biomechanical model, which includes seven actuated degrees of freedom. To deal with the curse of dimensionality, we use a simplified second-order muscle model, acting at each degree of freedom instead of individual muscles. The results confirm that the assumptions of signal-dependent and constant motor noise, together with the objective of movement time minimization, are sufficient for a state-of-the-art skeletal model of the human upper extremity to reproduce complex phenomena of human movement, in particular Fitts' Law and the 2/3 Power Law. This result supports the notion that control of the complex human biomechanical system can plausibly be determined by a set of simple assumptions and can easily be learned.
翻訳日:2022-09-26 00:55:16 公開日:2022-04-20
# (参考訳) 産業ネットワークにおけるコンテンツセンシティブ異常検出のための表現学習

Representation Learning for Content-Sensitive Anomaly Detection in Industrial Networks ( http://arxiv.org/abs/2205.08953v1 )

ライセンス: CC BY-SA 4.0
Fabian Kopp(参考訳) 本稿では、convGRUベースのオートエンコーダを用いて、生のネットワークトラフィックの時空間的側面を教師なしかつプロトコルに依存しない方法で学習するフレームワークを提案する。 学習した表現は、その後の異常検出結果への影響を測定するために使用され、抽出した特徴を伴わないアプリケーションと比較される。 その結果,ネットワーク侵入検出の文脈において,圧縮トラフィックフラグメントに適用した場合,異常検出は効果的に改善できないことがわかった。 しかし、訓練されたオートエンコーダは、空間的および時間的情報を保持するネットワークトラフィックの圧縮表現(コード)をうまく生成する。 モデル残差損失に基づいて、オートエンコーダは、単独で異常を検出することもできる。 最後に, モデル解釈可能性 (LRP) のアプローチについて検討し, 異常検出法により生成された警告を豊かにするために用いられる生入力データ内の関連領域を同定した。

Using a convGRU-based autoencoder, this thesis proposes a framework to learn spatial-temporal aspects of raw network traffic in an unsupervised and protocol-agnostic manner. The learned representations are used to measure the effect on the results of a subsequent anomaly detection and are compared to the application without the extracted features. The evaluation showed, that the anomaly detection could not effectively be enhanced when applied on compressed traffic fragments for the context of network intrusion detection. Yet, the trained autoencoder successfully generates a compressed representation (code) of the network traffic, which hold spatial and temporal information. Based on the models residual loss, the autoencoder is also capable of detecting anomalies by itself. Lastly, an approach for a kind of model interpretability (LRP) was investigated in order to identify relevant areas within the raw input data, which is used to enrich alerts generated by an anomaly detection method.
翻訳日:2022-05-22 19:32:17 公開日:2022-04-20
# (参考訳) 化学言語モデルへのSMILESの言語知識の注入

Infusing Linguistic Knowledge of SMILES into Chemical Language Models ( http://arxiv.org/abs/2205.00084v1 )

ライセンス: CC0 1.0
Ingoo Lee and Hojung Nam(参考訳) 単純化された分子インプットラインエントリーシステム(SMILES)は化合物の最も一般的な表現である。 そのため、SMILESに基づく分子特性予測モデルが数多く開発されている。 特に、トランスフォーマーベースのモデルは、自己教師付き学習に巨大な化学データセットを使用するため、有望な性能を示す。 しかし、SMILESの生成プロセスから生じるSMILES固有の制限を克服するトランスフォーマーベースのモデルはない。 本研究では,SMILESの文法的知識と呼ばれるサブ構造とそのタイプ間の接続性を得るために,SMILESを文法解析した。 まず,SMILESから解析したサブストラクチャトークンを用いたトランスフォーマーの事前学習を行った。 次に,スマイル文法の理解を深めるために,学習戦略「同複合モデル」を用いた。 さらに,コネクティビティとタイプに関する知識をナレッジアダプタでトランスフォーマに注入した。 その結果, この表現モデルは, 分子特性の予測に先行する化合物表現よりも優れていた。 最後に,トランスフォーマーモデルとアダプタの注意を解析し,提案モデルが笑顔の文法を理解することを実証した。

The simplified molecular-input line-entry system (SMILES) is the most popular representation of chemical compounds. Therefore, many SMILES-based molecular property prediction models have been developed. In particular, transformer-based models show promising performance because the model utilizes a massive chemical dataset for self-supervised learning. However, there is no transformer-based model to overcome the inherent limitations of SMILES, which result from the generation process of SMILES. In this study, we grammatically parsed SMILES to obtain connectivity between substructures and their type, which is called the grammatical knowledge of SMILES. First, we pretrained the transformers with substructural tokens, which were parsed from SMILES. Then, we used the training strategy 'same compound model' to better understand SMILES grammar. In addition, we injected knowledge of connectivity and type into the transformer with knowledge adapters. As a result, our representation model outperformed previous compound representations for the prediction of molecular properties. Finally, we analyzed the attention of the transformer model and adapters, demonstrating that the proposed model understands the grammar of SMILES.
翻訳日:2022-05-09 04:14:36 公開日:2022-04-20
# (参考訳) 5つのP: 責任あるAIに向けたレバレッジゾーン

Five Ps: Leverage Zones Towards Responsible AI ( http://arxiv.org/abs/2205.01070v1 )

ライセンス: CC BY 4.0
Ehsan Nabavi, Chris Browne(参考訳) これまでのところ、責任あるAIへの介入がAI問題の根本原因に関与するのに十分であったかどうか、学者や実践者の間で議論が続いている。 このシステムで有意義な変化を起こすことができないと、これらのイニシアチブが潜在能力に到達できず、企業がマーケティングキャンペーンで使用する新たなバズワードになる可能性がある。 我々は,Responsible AIに必要な変化に対して,介入が効果的であると理解される範囲を改善する機会があることを提案する。 本稿では,「システム思考」文献から適応したレバレッジゾーンの概念を用いて,介入の効果を評価する新しい手法を提案する。 In this paper we argue that insights from using this perspective demonstrate that the majority of current initiatives taken by various actors in the field, focus on low-order interventions, such as short-term fixes, tweaking algorithms and updating parameters, absent from higher-order interventions, such as redefining the system's foundational structures that govern those parameters, or challenging the underlying purpose upon which those structures are built and developed in the first place(high-leverage). 本稿では、責任あるAIに対する介入を特定するためのFive Psと呼ばれる概念的枠組みを提案し、責任あるAIに対する結果を改善するための学際的質問のための足場を提供する。

There is a growing debate amongst academics and practitioners on whether interventions made, thus far, towards Responsible AI would have been enough to engage with root causes of AI problems. Failure to effect meaningful changes in this system could see these initiatives to not reach their potential and lead to the concept becoming another buzzword for companies to use in their marketing campaigns. We propose that there is an opportunity to improve the extent to which interventions are understood to be effective in their contribution to the change required for Responsible AI. Using the notions of leverage zones adapted from the 'Systems Thinking' literature, we suggest a novel approach to evaluate the effectiveness of interventions, to focus on those that may bring about the real change that is needed. In this paper we argue that insights from using this perspective demonstrate that the majority of current initiatives taken by various actors in the field, focus on low-order interventions, such as short-term fixes, tweaking algorithms and updating parameters, absent from higher-order interventions, such as redefining the system's foundational structures that govern those parameters, or challenging the underlying purpose upon which those structures are built and developed in the first place(high-leverage). This paper presents a conceptual framework called the Five Ps to identify interventions towards Responsible AI and provides a scaffold for transdisciplinary question asking to improve outcomes towards Responsible AI.
翻訳日:2022-05-09 04:04:15 公開日:2022-04-20
# (参考訳) テキスト生成技術のためのプロンプトエンジニアリング

Prompt Engineering for Text-Based Generative Art ( http://arxiv.org/abs/2204.13988v1 )

ライセンス: CC BY 4.0
Jonas Oppenlaender(参考訳) テキストベースの生成アートは2021年に爆発的に注目を集めている。 デジタルメディアとしてのテキストベースの生成芸術に関するオンラインコミュニティが急速に登場している。 本稿は,Twitter上での3ヶ月のエスノグラフィー研究に基づいて,テキスト生成技術コミュニティにおいて実践者が使用する5種類のプロンプト修飾体を同定する。 プロンプト修飾子の新しい分類法により、研究者はテキストベースの生成芸術の実践を研究するための概念的な出発点となるが、テキストベースの生成芸術の実践者がイメージを改善するのに役立つかもしれない。 本稿は,テキストベース生成技術の分野における研究機会と,テキストベース生成技術の応用を超えた今後の応用における人間とAIの相互作用の観点から,迅速なエンジニアリングの幅広い意味を論じる。

Text-based generative art has seen an explosion of interest in 2021. Online communities around text-based generative art as a novel digital medium have quickly emerged. This short paper identifies five types of prompt modifiers used by practitioners in the community of text-based generative art based on a 3-month ethnographic study on Twitter. The novel taxonomy of prompt modifiers provides researchers a conceptual starting point for investigating the practices of text-based generative art, but also may help practitioners of text-based generative art improve their images. The paper concludes with a discussion of research opportunities in the space of text-based generative art and the broader implications of prompt engineering from the perspective of human-AI interaction in future applications beyond the use case of text-based generative art.
翻訳日:2022-05-09 03:52:23 公開日:2022-04-20
# (参考訳) 復号化のための最適ニューラルネットワークパラメータの検討

Investigating the Optimal Neural Network Parameters for Decoding ( http://arxiv.org/abs/2204.12441v1 )

ライセンス: CC BY 4.0
Joshua Tshifhiwa Maumela(参考訳) ニューラルネットワークは電気通信におけるデコーダとして機能することが証明されているため、この論文ではその効率性について検討する。 ニューラルネットワークデコーダの効率を最大化するための異なるパラメータについて検討する。 パラメータは逆エラーのためにのみテストされる。

Neural Networks have been proved to work as decoders in telecommunications, so the ways of making it efficient will be investigated in this thesis. The different parameters to maximize the Neural Network Decoder's efficiency will be investigated. The parameters will be tested for inversion errors only.
翻訳日:2022-05-09 03:38:56 公開日:2022-04-20
# (参考訳) フィードフォワード型ディープスパイクニューラルネットワークの短期記憶としての軸索遅延

Axonal Delay As a Short-Term Memory for Feed Forward Deep Spiking Neural Networks ( http://arxiv.org/abs/2205.02115v1 )

ライセンス: CC BY 4.0
Pengfei Sun, Longwei Zhu and Dick Botteldooren(参考訳) スパイクニューラルネットワーク(SNN)の情報は、隣接する生物学的ニューロン間でスパイクによって伝達され、人間の脳をシミュレートする約束を伴う計算パラダイムを提供する。 近年の研究では、学習過程においてニューロンの時間的遅延が重要な役割を果たすことが示されている。 したがって、スパイクの正確なタイミングを設定することは、SNNにおける時間情報の伝達過程を理解し改善するための有望な方向である。 しかしながら、スパイクニューロンの既存の学習方法のほとんどはシナプス重量の調整に焦点を当てているが、軸索遅延の研究はほとんど行われていない。 本稿では,教師付き学習に時間遅延を統合することの有効性を検証し,短期記憶による軸索遅延を調節するモジュールを提案する。 この目的のために、修正された軸索遅延(RAD)モジュールをスパイクモデルに統合してスパイクタイミングを調整し、時間的特徴の特性学習能力を向上させる。 NMNIST, DVS Gesture, N-TIDIGITS18 の3つのニューロモルフィック・ベンチマーク・データセットに対する実験により, 提案手法が最少パラメータを用いて最先端の性能を達成することを示す。

The information of spiking neural networks (SNNs) are propagated between the adjacent biological neuron by spikes, which provides a computing paradigm with the promise of simulating the human brain. Recent studies have found that the time delay of neurons plays an important role in the learning process. Therefore, configuring the precise timing of the spike is a promising direction for understanding and improving the transmission process of temporal information in SNNs. However, most of the existing learning methods for spiking neurons are focusing on the adjustment of synaptic weight, while very few research has been working on axonal delay. In this paper, we verify the effectiveness of integrating time delay into supervised learning and propose a module that modulates the axonal delay through short-term memory. To this end, a rectified axonal delay (RAD) module is integrated with the spiking model to align the spike timing and thus improve the characterization learning ability of temporal features. Experiments on three neuromorphic benchmark datasets : NMNIST, DVS Gesture and N-TIDIGITS18 show that the proposed method achieves the state-of-the-art performance while using the fewest parameters.
翻訳日:2022-05-09 03:37:53 公開日:2022-04-20
# Neuro2vec: 神経生理学的表現学習のためのマスク付きフーリエスペクトル予測

neuro2vec: Masked Fourier Spectrum Prediction for Neurophysiological Representation Learning ( http://arxiv.org/abs/2204.12440v1 )

ライセンス: Link先を確認
Di Wu, Siyuan Li, Jie Yang, Mohamad Sawan(参考訳) 神経生理学的信号の広範なデータラベリングは、特定のインフラやドメインの専門知識を必要とするため、しばしば高価または非実用的である。 深層学習手法のデータに対する欲求に対処するために,神経生理学的信号の自己教師付き事前学習のためのFourierベースのモデリングフレームワークを初めて提示する。 神経生理学的信号の頻度と位相分布は、脳と筋肉の基盤となる神経生理学的活動を明らかにする。 提案手法は,まず入力信号の一部をランダムにマスキングし,時空間あるいはフーリエ領域から欠落した情報を予測する。 事前訓練されたモデルは、脳波(EEG)信号を用いた睡眠段階分類や、筋電図(EMG)信号を用いたジェスチャー認識などの下流タスクに使用することができる。 厳密な手作り強化とシム構造に強く依存する対照的な手法とは異なり,本手法は,拡張要求のない単純なトランスフォーマーエンコーダで合理的に機能する。 本手法は,脳波と脳波の両方を含むいくつかのベンチマークデータセットで評価することで,下流の神経生理学的タスクを大きなマージンで改善できることを示す。

Extensive data labeling on neurophysiological signals is often prohibitively expensive or impractical, as it may require particular infrastructure or domain expertise. To address the appetite for data of deep learning methods, we present for the first time a Fourier-based modeling framework for self-supervised pre-training of neurophysiology signals. The intuition behind our approach is simple: frequency and phase distribution of neurophysiology signals reveal the underlying neurophysiological activities of the brain and muscle. Our approach first randomly masks out a portion of the input signal and then predicts the missing information from either spatiotemporal or the Fourier domain. Pre-trained models can be potentially used for downstream tasks such as sleep stage classification using electroencephalogram (EEG) signals and gesture recognition using electromyography (EMG) signals. Unlike contrastive-based methods, which strongly rely on carefully hand-crafted augmentations and siamese structure, our approach works reasonably well with a simple transformer encoder with no augmentation requirements. By evaluating our method on several benchmark datasets, including both EEG and EMG, we show that our modeling approach improves downstream neurophysiological related tasks by a large margin.
翻訳日:2022-05-09 00:13:41 公開日:2022-04-20
# 遅延ダイナミクスを用いたデータ駆動モデルの安定性保持

Stability Preserving Data-driven Models With Latent Dynamics ( http://arxiv.org/abs/2204.11744v1 )

ライセンス: Link先を確認
Yushuang Luo and Xiantao Li and Wenrui Hao(参考訳) 本稿では,潜在変数を用いた動的問題に対するデータ駆動モデリング手法を提案する。 提案モデルの状態空間は、与えられたデータセットに適合可能な観測変数に加えて、人工的潜在変数を含む。 本稿では,結合ダイナミクスの安定性を容易に実現可能なモデルフレームワークを提案する。 このモデルは繰り返し細胞によって実装され、時間を通してバックプロパゲーションを用いて訓練される。 注文削減問題からのベンチマークテストを用いた数値例は,モデルの安定性と再帰セル実装の効率を示す。 応用として、モデルの精度と予測能力を示す2つの流体構造相互作用問題を考える。

In this paper, we introduce a data-driven modeling approach for dynamics problems with latent variables. The state-space of the proposed model includes artificial latent variables, in addition to observed variables that can be fitted to a given data set. We present a model framework where the stability of the coupled dynamics can be easily enforced. The model is implemented by recurrent cells and trained using backpropagation through time. Numerical examples using benchmark tests from order reduction problems demonstrate the stability of the model and the efficiency of the recurrent cell implementation. As applications, two fluid-structure interaction problems are considered to illustrate the accuracy and predictive capability of the model.
翻訳日:2022-05-09 00:12:54 公開日:2022-04-20
# broad recommender system: 効率的な非線形協調フィルタリング手法

Broad Recommender System: An Efficient Nonlinear Collaborative Filtering Approach ( http://arxiv.org/abs/2204.11602v1 )

ライセンス: Link先を確認
Ling Huang, Can-Rong Guan, Zhen-Wei Huang, Yuefang Gao, Yingjie Kuang, Chang-Dong Wang, C. L. Philip Chen(参考訳) 近年、ディープニューラルネットワーク(dnns)は、アイテムとユーザ間の複雑な非線形関係を捉える能力により、より正確な推奨結果を生成するために、協調フィルタリング(cf)に広く導入されているが、dnnsベースのモデルは、通常、非常に長いトレーニング時間を消費し、大量のトレーニング可能なパラメータを格納する高い計算複雑性に苦しめられている。 そこで本稿では,効率的な非線形協調フィルタリング手法であるbroadcf(broad collaborative filtering)という,新しい広義の推薦システムを提案する。 DNNの代わりに、Broad Learning System (BLS) は、ユーザとアイテム間の複雑な非線形関係を学習するためのマッピング機能として使われ、上述の問題を回避しつつ、非常に良好なレコメンデーション性能を実現している。 しかし、元のレーティングデータをBLSに直接フィードすることは不可能である。 そこで,本稿では,類似するユーザ/コンテンツの品質判断を活用できる低次元ユーザ項目入力データを生成するために,協調ベクトル前処理手法を提案する。 提案するbroadcfアルゴリズムの有効性を7つのベンチマークデータセットで検証した。

Recently, Deep Neural Networks (DNNs) have been widely introduced into Collaborative Filtering (CF) to produce more accurate recommendation results due to their capability of capturing the complex nonlinear relationships between items and users.However, the DNNs-based models usually suffer from high computational complexity, i.e., consuming very long training time and storing huge amount of trainable parameters. To address these problems, we propose a new broad recommender system called Broad Collaborative Filtering (BroadCF), which is an efficient nonlinear collaborative filtering approach. Instead of DNNs, Broad Learning System (BLS) is used as a mapping function to learn the complex nonlinear relationships between users and items, which can avoid the above issues while achieving very satisfactory recommendation performance. However, it is not feasible to directly feed the original rating data into BLS. To this end, we propose a user-item rating collaborative vector preprocessing procedure to generate low-dimensional user-item input data, which is able to harness quality judgments of the most similar users/items. Extensive experiments conducted on seven benchmark datasets have confirmed the effectiveness of the proposed BroadCF algorithm
翻訳日:2022-05-01 09:27:42 公開日:2022-04-20
# (参考訳) 部分的既知意味論をもつ環境における報酬機械と政策の合同学習

Joint Learning of Reward Machines and Policies in Environments with Partially Known Semantics ( http://arxiv.org/abs/2204.11833v1 )

ライセンス: CC BY 4.0
Christos Verginis, Cevahir Koprulu, Sandeep Chinchali, Ufuk Topcu(参考訳) 報奨機で符号化されたタスクに対する強化学習の問題について検討する。 このタスクは、原子命題と呼ばれる環境内のプロパティのセット上で定義され、ブール変数で表される。 文献でよく使われる非現実的な仮定の一つは、これらの命題の真理値が正確に知られていることである。 しかし、実際の状況では、これらの真理値が不完全なセンサーから来ているため、不確実である。 同時に、特に複雑なタスクをエンコードする場合、報酬機械は明示的にモデル化することが難しい。 提案の真理値の不確実性に拘わらず,実行方法を学習しながら基礎タスクをエンコードする報酬機械を推定する強化学習アルゴリズムを開発した。 このような不確実性に対処するために、このアルゴリズムは原子命題の真理値に関する確率的推定を保ち、環境の探索からもたらされた新しい感覚測定に基づいてこの推定値を更新する。 さらに、アルゴリズムは、学習すべきタスクをエンコードする報酬マシンの推定として機能する仮説報酬マシンを維持している。 エージェントが環境を探索すると、アルゴリズムは得られた報奨と原子命題の真理値の推定に従って仮説報奨機を更新する。 最後に、このアルゴリズムは、仮説報酬機械の状態のq学習手順を使用して、そのタスクを達成するポリシーを決定する。 アルゴリズムが報奨機を推定し,漸近的に各タスクを遂行する方針を学習できることを実証する。

We study the problem of reinforcement learning for a task encoded by a reward machine. The task is defined over a set of properties in the environment, called atomic propositions, and represented by Boolean variables. One unrealistic assumption commonly used in the literature is that the truth values of these propositions are accurately known. In real situations, however, these truth values are uncertain since they come from sensors that suffer from imperfections. At the same time, reward machines can be difficult to model explicitly, especially when they encode complicated tasks. We develop a reinforcement-learning algorithm that infers a reward machine that encodes the underlying task while learning how to execute it, despite the uncertainties of the propositions' truth values. In order to address such uncertainties, the algorithm maintains a probabilistic estimate about the truth value of the atomic propositions; it updates this estimate according to new sensory measurements that arrive from the exploration of the environment. Additionally, the algorithm maintains a hypothesis reward machine, which acts as an estimate of the reward machine that encodes the task to be learned. As the agent explores the environment, the algorithm updates the hypothesis reward machine according to the obtained rewards and the estimate of the atomic propositions' truth value. Finally, the algorithm uses a Q-learning procedure for the states of the hypothesis reward machine to determine the policy that accomplishes the task. We prove that the algorithm successfully infers the reward machine and asymptotically learns a policy that accomplishes the respective task.
翻訳日:2022-05-01 09:22:33 公開日:2022-04-20
# 非ブール行列に対するIhara-Bass式とランダムCSPの強い反発

A Ihara-Bass Formula for Non-Boolean Matrices and Strong Refutations of Random CSPs ( http://arxiv.org/abs/2204.10881v1 )

ライセンス: Link先を確認
Tommaso d'Orsi, Luca Trevisan(参考訳) 我々は、任意の対称行列に付随する「非バックトラッキング」行列の概念を定義し、それに対する「イハラバス」型公式を証明した。 以前は、これらの概念は対称 0/1 行列に対してのみ知られていた。 この理論を用いて,制約当たり$k$変数 (k-csps) を持つ無作為制約満足度問題の多項式時間強い反論を証明した。 代入分数$p$で満たされる制約で構築されたランダムk-CSPインスタンスに対して、もしインスタンスに$n$変数と$n^{k/2} / \epsilon^2$制約があるなら、最適値が少なくとも$p+O_k(\epsilon)$制約分で満足する証明書を効率的に計算できる。 以前は$k$でも知られていたが、奇数$k$の場合、同じ結論を達成するために$n^{k/2} (\log n)^{O(1)} / \epsilon^2$ランダムな制約が必要であった。 改善は多対数に過ぎませんが、この種の結果に対する大きな障壁を克服します。 現在のアプローチに基づく強い反発の結果は、k-CSPインスタンスに関連するある行列が準ランダムであることの証明を構築する。 そのような証明は、ファイゲ=オフェック型の引数、グロタンディークの不等式の適用、あるいはトレース引数で得られるスペクトル境界から得られる。 最初の2つのアプローチでは、制約の数が$o(n^{\lceil k/2 \rceil})$であり、3番目のアプローチは、制約の数が$o(n^{k/2} \sqrt{\log n})$であるときに機能しないユニオン境界を必要とする。

We define a notion of "non-backtracking" matrix associated to any symmetric matrix, and we prove a "Ihara-Bass" type formula for it. Previously, these notions were known only for symmetric 0/1 matrices. We use this theory to prove new results on polynomial-time strong refutations of random constraint satisfaction problems with $k$ variables per constraints (k-CSPs). For a random k-CSP instance constructed out of a constraint that is satisfied by a $p$ fraction of assignments, if the instance contains $n$ variables and $n^{k/2} / \epsilon^2$ constraints, we can efficiently compute a certificate that the optimum satisfies at most a $p+O_k(\epsilon)$ fraction of constraints. Previously, this was known for even $k$, but for odd $k$ one needed $n^{k/2} (\log n)^{O(1)} / \epsilon^2$ random constraints to achieve the same conclusion. Although the improvement is only polylogarithmic, it overcomes a significant barrier to these types of results. Strong refutation results based on current approaches construct a certificate that a certain matrix associated to the k-CSP instance is quasirandom. Such certificate can come from a Feige-Ofek type argument, from an application of Grothendieck's inequality, or from a spectral bound obtained with a trace argument. The first two approaches require a union bound that cannot work when the number of constraints is $o(n^{\lceil k/2 \rceil})$ and the third one cannot work when the number of constraints is $o(n^{k/2} \sqrt{\log n})$.
翻訳日:2022-05-01 08:51:02 公開日:2022-04-20
# (参考訳) 高速道路車線変更の予測:機械とアンサンブル学習アルゴリズムのベンチマーク解析

Predicting highway lane-changing maneuvers: A benchmark analysis of machine and ensemble learning algorithms ( http://arxiv.org/abs/2204.10807v1 )

ライセンス: CC BY 4.0
Basma Khelfa, Ibrahima Ba, Antoine Tordeux(参考訳) 高速道路の車線変更操作の理解と予測は、モデリングとその自動化に不可欠である。 データに基づく車線変更意思決定アルゴリズムの開発は、現在完全に拡張されている。 本稿では,ヨーロッパ2車線道路の軌道データを用いたモービルルールベースモデルと,異なる機械とアンサンブル学習の分類手法の比較を行った。 この分析は、現在車線と隣接車線に隣接する4台の車両で最大24個の空間-時間変数の瞬時測定に依存している。 主成分とロジスティック分析による予備的な記述的調査により、ドライバーが車線を変更することを意図した主な変数を特定できる。 我々は,遅延レーンから高速レーンへの乗っ取りと,高速レーンから低速レーンへの折り込みの2種類の裁量的レーン変更操作を予測した。 予測精度は、トータル、レーンチェンジ、レーンキーピング誤差および関連する受信機動作特性曲線を用いて定量化される。 ベンチマーク分析には、ロジスティックモデル、線形判別木、決定木、na\"ive bayes分類器、サポートベクターマシン、ニューラルネットワーク機械学習アルゴリズム、最大10のバッキングおよびスタックアンサンブル学習メタヒューリスティックが含まれる。 ルールベースモデルが、特にフォールドダウンの場合、予測精度に制限がある場合、モデリングバイアスのないデータベースアルゴリズムは、大幅な予測改善を可能にする。 クロスバリデーションは、選択されたニューラルネットワークとスタックアルゴリズムが、折りたたみ式と4秒前の操作の両方から高い精度で予測できることを示している。

Understanding and predicting lane-change maneuvers on highways is essential for driving modeling and its automation. The development of data-based lane-changing decision-making algorithms is nowadays in full expansion. We compare empirically in this article different machine and ensemble learning classification techniques to the MOBIL rule-based model using trajectory data of European two-lane highways. The analysis relies on instantaneous measurements of up to twenty-four spatial-temporal variables with the four neighboring vehicles on current and adjacent lanes. Preliminary descriptive investigations by principal component and logistic analyses allow identifying main variables intending a driver to change lanes. We predict two types of discretionary lane-change maneuvers: Overtaking (from slow to fast lane) and fold-down (from fast to slow lane). The prediction accuracy is quantified using total, lane-changing and lane-keeping errors and associated receiver operating characteristic curves. The benchmark analysis includes logistic model, linear discriminant, decision tree, na\"ive Bayes classifier, support vector machine, neural network machine learning algorithms, and up to ten bagging and stacking ensemble learning meta-heuristics. If the rule-based model provides limited predicting accuracy, especially in case of fold-down, the data-based algorithms, devoid of modeling bias, allow significant prediction improvements. Cross validations show that selected neural networks and stacking algorithms allow predicting from a single observation both fold-down and overtaking maneuvers up to four seconds in advance with high accuracy.
翻訳日:2022-04-26 04:11:30 公開日:2022-04-20
# (参考訳) 行動のエクササイズを学ぶか,あるいは質問する

Learning to Execute Actions or Ask Clarification Questions ( http://arxiv.org/abs/2204.08373v2 )

ライセンス: CC BY 4.0
Zhengxiang Shi, Yue Feng, Aldo Lipani(参考訳) 共同作業は、共同目標を達成するためにコミュニケーションの形式を必要とするユビキタスな活動である。 協調的なビルディングはそのようなタスクの1つです。 エージェントに話しかけるだけで、ユーザが望むものを作ることができる、シミュレーションされたビルディング環境(Minecraft)にインテリジェントなビルダーエージェントを開発したいと思っています。 この目標を達成するには、さらなる情報が必要になったとき、明確化を問うことでイニシアチブを取らなければならない。 Minecraft Corpus Datasetの既存の作業は、明確化を求めることの重要性を無視して命令を実行することしか学ばない。 本稿では,すべてのビルダー発話を説明質問を含む8つのタイプにアノテートすることにより,マインクラフトコーパスデータセットを拡張し,いつ命令を実行すべきかを判断できる新しいビルダーエージェントモデルを提案する。 実験結果から,本モデルが協調作業における最先端性能を実現し,大幅な改善が得られた。 また,質問課題の学習と共同学習タスクという2つの新しいタスクを定義した。 後者は、協調的なビルディングと学習の両方を解決し、共同でタスクを問う。

Collaborative tasks are ubiquitous activities where a form of communication is required in order to reach a joint goal. Collaborative building is one of such tasks. We wish to develop an intelligent builder agent in a simulated building environment (Minecraft) that can build whatever users wish to build by just talking to the agent. In order to achieve this goal, such agents need to be able to take the initiative by asking clarification questions when further information is needed. Existing works on Minecraft Corpus Dataset only learn to execute instructions neglecting the importance of asking for clarifications. In this paper, we extend the Minecraft Corpus Dataset by annotating all builder utterances into eight types, including clarification questions, and propose a new builder agent model capable of determining when to ask or execute instructions. Experimental results show that our model achieves state-of-the-art performance on the collaborative building task with a substantial improvement. We also define two new tasks, the learning to ask task and the joint learning task. The latter consists of solving both collaborating building and learning to ask tasks jointly.
翻訳日:2022-04-23 09:54:06 公開日:2022-04-20
# (参考訳) 計算知能を用いた変圧器ブッシングの状態モニタリング

Condition Monitoring of Transformer Bushings Using Computational Intelligence ( http://arxiv.org/abs/2204.10193v1 )

ライセンス: CC BY 4.0
Joshua Tshifhiwa Maumela(参考訳) 溶存ガス・イン・オイル分析(DGA)は、大型変圧器のブッシング状態を監視するために用いられる。 収集したデータから条件を決定する手法は様々であるが、本研究では人工知能技術について検討する。 本研究は, DGA中のガスが相互に関連し, 意思決定に重要であるガスについて検討する。 関連するおよび重要なガスが決定されると、他のガスは廃棄され、DGAの属性数が減少する。 したがって、これらの新しいデータセットが完全な属性のDGAを分類するために使用される分類器のパフォーマンスにどのように影響するか、さらなる調査が行われる。 これらの実験で使用される分類器は、バックプロパゲーションニューラルネットワーク(BPNN)とサポートベクトルマシン(SVM)であるのに対し、プライマリコンポーネント分析(PCA)、ラフセット(RS)、インクリメンタルグラニュラーランキング(GR++)、決定木(DT)はデータセットの属性を減らすために用いられた。 BPNNおよびSVM分類器を訓練する際に使用されるパラメータは、ガス数を減らす効果を調べる際に制御されたテスト環境を作成するために固定される。 この研究はさらに、高次元データセットとノイズの多いデータセット、Rough Neural Network (RNN)を処理できる新しい分類器を導入した。

Dissolved Gas-in-oil analysis (DGA) is used to monitor the condition of bushings on large power transformers. There are different techniques used in determining the conditions from the data collected, but in this work the Artificial Intelligence techniques are investigated. This work investigates which gases in DGA are related to each other and which ones are important for making decisions. When the related and crucial gases are determined, the other gases are discarded thereby reducing the number of attributes in DGA. Hence a further investigation is done to see how these new datasets influence the performance of the classifiers used to classify the DGA of full attributes. The classifiers used in these experiments were Backpropagation Neural Networks (BPNN) and Support Vector Machines (SVM) whereas the Principal Component Analysis (PCA), Rough Set (RS), Incremental Granular Ranking (GR++) and Decision Trees (DT) were used to reduce the attributes of the dataset. The parameters used when training the BPNN and SVM classifiers are kept fixed to create a controlled test environment when investigating the effects of reducing the number of gases. This work further introduced a new classifier that can handle high dimension dataset and noisy dataset, Rough Neural Network (RNN).
翻訳日:2022-04-23 06:25:04 公開日:2022-04-20
# (参考訳) 資源制約型IoTハードウェアにおけるニューラルネットワークの多成分最適化と効率的な展開

Multi-Component Optimization and Efficient Deployment of Neural-Networks on Resource-Constrained IoT Hardware ( http://arxiv.org/abs/2204.10183v1 )

ライセンス: CC BY 4.0
Bharath Sudharsan, Dineshkumar Sundaram, Pankesh Patel, John G. Breslin, Muhammad Intizar Ali, Schahram Dustdar, Albert Zomaya, Rajiv Ranjan(参考訳) スマートウォッチ、スマートプラグ、HVACコントローラなどのIoTデバイスの大部分は、大きな高品質モデルに対応および実行に不十分な制約付き仕様(メモリ、クロック速度、プロセッサ)のハードウェアによって駆動されている。 このようなリソース制約のあるデバイス上では、製造業者は、データ(画像、オーディオ、センサー読み取りなど)をクラウドベースのML分析プラットフォームに収集、送信するIoTデバイス/プロダクトのプログラミングアプローチに従えば、魅力的な機能(販売を促進するために)を提供することができる。 何十年もの間、このオンラインアプローチは、データストリームの漏洩、レイテンシによる非リアルタイム分析、帯域制限、コストのかかるサブスクリプション、ユーザによる最近のプライバシー問題、GDPRガイドラインなどに直面してきた。 本稿では,資源制約されたIoTデバイス上で,超高速かつ正確なAIベースのオフライン分析を可能にするために,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。 研究者や開発者は、我々の最適化シーケンスを使用して、リソースに制約されたハードウェアで快適に適合し実行可能な、小さなサイズ、低レイテンシ、低消費電力の消費モデルを生成するために、高メモリ、計算要求モデルの複数の側面を最適化することができる。 実験の結果,最適化コンポーネントはモデルを生成することができることがわかった。 (i)12.06倍の圧縮 (ii)0.13%から0.27%の精度 最適化シーケンスは汎用的であり、異常検出、予測保守、ロボット工学、音声認識、および機械ビジョンのために訓練されたあらゆる最先端モデルに適用することができる。

The majority of IoT devices like smartwatches, smart plugs, HVAC controllers, etc., are powered by hardware with a constrained specification (low memory, clock speed and processor) which is insufficient to accommodate and execute large, high-quality models. On such resource-constrained devices, manufacturers still manage to provide attractive functionalities (to boost sales) by following the traditional approach of programming IoT devices/products to collect and transmit data (image, audio, sensor readings, etc.) to their cloud-based ML analytics platforms. For decades, this online approach has been facing issues such as compromised data streams, non-real-time analytics due to latency, bandwidth constraints, costly subscriptions, recent privacy issues raised by users and the GDPR guidelines, etc. In this paper, to enable ultra-fast and accurate AI-based offline analytics on resource-constrained IoT devices, we present an end-to-end multi-component model optimization sequence and open-source its implementation. Researchers and developers can use our optimization sequence to optimize high memory, computation demanding models in multiple aspects in order to produce small size, low latency, low-power consuming models that can comfortably fit and execute on resource-constrained hardware. The experimental results show that our optimization components can produce models that are; (i) 12.06 x times compressed; (ii) 0.13% to 0.27% more accurate; (iii) Orders of magnitude faster unit inference at 0.06 ms. Our optimization sequence is generic and can be applied to any state-of-the-art models trained for anomaly detection, predictive maintenance, robotics, voice recognition, and machine vision.
翻訳日:2022-04-23 06:23:51 公開日:2022-04-20
# (参考訳) 深層学習による不正確な移動画像からの複雑な塩-ジオメトリの完全同定

Complete identification of complex salt-geometries from inaccurate migrated images using Deep Learning ( http://arxiv.org/abs/2204.09710v1 )

ライセンス: CC BY 4.0
Ana Paula O.Muller, Jess\'e C. Costa, Clecio R. Bom, Elisangela L. Faria, Matheus Klatt, Gabriel Teixeira, Marcelo P. de Albuquerque, Marcio P. de Albuquerque(参考訳) 移行した画像から塩分を除去することは、高度に計算された解析に依存し、利用可能なメソッドの解釈エラーや制限を受ける時間を要する活動である。 本研究では, コンボリューションニューラルネットワーク(cnn)を用いて, 不正確な流速モデル(堆積速度を合理的に近似するが, 塩包有物は含まない)から生成したマイグレーション画像を用いて, 塩包有物の形状を推定する手法を提案する。 本手法は, 堆積物のゼロオフセットまわりの反射に着目し, 大きなオフセットに塩反射のエネルギーを拡散させるため, 地下のコモン・イメージ・アグリゲーションに依拠する。 合成データを用いて,ネットワーク出力としてCNNと正しい塩マスクの入力チャネルとして,共通オフセット地下画像を使用するようにU-Netを訓練した。 ネットワークはソルトインクルージョンマスクを高い精度で予測することを学び、さらに以前に導入されなかった合成ベンチマークデータセットにも適用した。 実験では,u-netを用いて部分集束した表層オフセット画像から複雑な塩体形状を学習した。

Delimiting salt inclusions from migrated images is a time-consuming activity that relies on highly human-curated analysis and is subject to interpretation errors or limitations of the methods available. We propose to use migrated images produced from an inaccurate velocity model (with a reasonable approximation of sediment velocity, but without salt inclusions) to predict the correct salt inclusions shape using a Convolutional Neural Network (CNN). Our approach relies on subsurface Common Image Gathers to focus the sediments' reflections around the zero offset and to spread the energy of salt reflections over large offsets. Using synthetic data, we trained a U-Net to use common-offset subsurface images as input channels for the CNN and the correct salt-masks as network output. The network learned to predict the salt inclusions masks with high accuracy; moreover, it also performed well when applied to synthetic benchmark data sets that were not previously introduced. Our training process tuned the U-Net to successfully learn the shape of complex salt bodies from partially focused subsurface offset images.
翻訳日:2022-04-23 05:56:33 公開日:2022-04-20
# (参考訳) yosm:映画レビューのための新しいヨルバ感情コーパス

yosm: A new yoruba sentiment corpus for movie reviews ( http://arxiv.org/abs/2204.09711v1 )

ライセンス: CC BY 4.0
Iyanuoluwa Shode, David Ifeoluwa Adelani, and Anna Feldman(参考訳) 個人によって徹底的に楽しまれ、推奨される映画は、他の人に嫌われるかもしれない。 人間の特徴の1つは、肯定的あるいは否定的な感情を持つ能力である。 人間の感情を自動的に分類し研究するために、自然言語処理、感情分析、意見マイニングの側面は、製品、ソーシャルメディアプラットフォーム、政府、社会的議論、さらには映画に影響を及ぼす可能性のあるいくつかの問題に関する人間の感情を理解するように設計された。 感情分析に関するいくつかの研究は高リソース言語で行われており、yorubaのような低リソース言語は横行している。 低リソース言語に適合するデータセットや言語アーキテクチャの不足のため、アフリカの言語"低リソース言語"は無視され、完全には検討されていない。 そのため、ナイジェリア映画の評価に関する感情分析を探究するため、ヨルバに注目が集まっている。 データにはIMDB、Rotten Tomatoes、Realboxd、Cinemapointer、Nollyratedなど1500本の映画レビューが含まれている。 我々は、mBERTやAfriBERTaといった最先端の事前学習言語モデルを用いて感情分類モデルを構築し、映画レビューを分類する。

A movie that is thoroughly enjoyed and recommended by an individual might be hated by another. One characteristic of humans is the ability to have feelings which could be positive or negative. To automatically classify and study human feelings, an aspect of natural language processing, sentiment analysis and opinion mining were designed to understand human feelings regarding several issues which could affect a product, a social media platforms, government, or societal discussions or even movies. Several works on sentiment analysis have been done on high resource languages while low resources languages like Yoruba have been sidelined. Due to the scarcity of datasets and linguistic architectures that will suit low resource languages, African languages "low resource languages" have been ignored and not fully explored. For this reason, our attention is placed on Yoruba to explore sentiment analysis on reviews of Nigerian movies. The data comprised 1500 movie reviews that were sourced from IMDB, Rotten Tomatoes, Letterboxd, Cinemapointer and Nollyrated. We develop sentiment classification models using the state-of-the-art pre-trained language models like mBERT and AfriBERTa to classify the movie reviews.
翻訳日:2022-04-23 05:41:26 公開日:2022-04-20
# (参考訳) 構文はいつニューラルネットワークモデルのパフォーマンスを仲介するのか? ドロップアウトプローブからの証拠

When Does Syntax Mediate Neural Language Model Performance? Evidence from Dropout Probes ( http://arxiv.org/abs/2204.09722v1 )

ライセンス: CC BY 4.0
Mycal Tucker, Tiwalayo Eisape, Peng Qian, Roger Levy, and Julie Shah(参考訳) 最近の因果調査文献では、言語モデルと構文プローブが類似の表現を使用する場合を明らかにしている。 モデルは構文の表現を使うが、プローブは同じ構文情報の冗長なエンコーディングを使うことを学んでいるかもしれない。 モデルが構文情報を冗長にエンコードすることを実証し、埋め込みに存在するすべての構文情報を考えるためにプローブをガイドする新しいプローブ設計を導入する。 これらのプローブを用いて,従来の手法ではなかったモデルにおける構文の使用の証拠を見つけ,構文情報を表現に注入することでモデル性能を向上させることができる。

Recent causal probing literature reveals when language models and syntactic probes use similar representations. Such techniques may yield "false negative" causality results: models may use representations of syntax, but probes may have learned to use redundant encodings of the same syntactic information. We demonstrate that models do encode syntactic information redundantly and introduce a new probe design that guides probes to consider all syntactic information present in embeddings. Using these probes, we find evidence for the use of syntax in models where prior methods did not, allowing us to boost model performance by injecting syntactic information into representations.
翻訳日:2022-04-23 05:34:07 公開日:2022-04-20
# (参考訳) ARLIF-IDS -- リアルタイム森林侵入検知システム

ARLIF-IDS -- Attention augmented Real-Time Isolation Forest Intrusion Detection System ( http://arxiv.org/abs/2204.09737v1 )

ライセンス: CC BY 4.0
Aman Priyanshu, Sarthak Shastri, Sai Sravan Medicherla(参考訳) ddos(distributed denial of service)攻撃は、ターゲットあるいはその周辺インフラストラクチャをインターネットトラフィックの洪水で圧倒することによって、ターゲットとするサーバ、サービス、あるいはネットワークの通常のトラフィックを妨害する悪意のある試みである。 Internet of ThingsやSoftware Defined Networkingといった新興技術は、DDoS攻撃の早期検出に軽量戦略を活用する。 従来の文献では、侵入検知のための重要な特徴の少ない利用例が示されている。 したがって,機能量が少なく,高速かつ効果的なセキュリティ識別モデルを持つことが不可欠である。 本研究では,新しい注意に基づく孤立林侵入検知システムを提案する。 このモデルは、生成されたモデルのトレーニング時間とメモリ消費を大幅に削減する。 パフォーマンス評価では、NSL-KDDデータセットとKDDCUP'99データセットの2つのベンチマークデータセットで評価される。 実験の結果,提案手法により,nsl-kdd と kddcup'99 データセットで平均検出 f1-score が 0.93 となり,実行時間の 91.78% 削減が可能となった。 性能評価の結果,提案手法は複雑度が低く,処理時間や計算資源も少なく,機械学習アルゴリズムに基づく他のidよりも優れていることがわかった。

Distributed Denial of Service (DDoS) attack is a malicious attempt to disrupt the normal traffic of a targeted server, service or network by overwhelming the target or its surrounding infrastructure with a flood of Internet traffic. Emerging technologies such as the Internet of Things and Software Defined Networking leverage lightweight strategies for the early detection of DDoS attacks. Previous literature demonstrates the utility of lower number of significant features for intrusion detection. Thus, it is essential to have a fast and effective security identification model based on low number of features. In this work, a novel Attention-based Isolation Forest Intrusion Detection System is proposed. The model considerably reduces training time and memory consumption of the generated model. For performance assessment, the model is assessed over two benchmark datasets, the NSL-KDD dataset & the KDDCUP'99 dataset. Experimental results demonstrate that the proposed attention augmented model achieves a significant reduction in execution time, by 91.78%, and an average detection F1-Score of 0.93 on the NSL-KDD and KDDCUP'99 dataset. The results of performance evaluation show that the proposed methodology has low complexity and requires less processing time and computational resources, outperforming other current IDS based on machine learning algorithms.
翻訳日:2022-04-23 05:15:59 公開日:2022-04-20
# (参考訳) Res-CNN-BiLSTMネットワークによるソーシャルメディアを介したサイバー嵐によるメンタルヘルス障害の克服

Res-CNN-BiLSTM Network for overcoming Mental Health Disturbances caused due to Cyberbullying through Social Media ( http://arxiv.org/abs/2204.09738v1 )

ライセンス: CC BY 4.0
Raunak Joshi, Abhishek Gupta, Nandan Kanvinde(参考訳) メンタルヘルス障害には多くの理由があり、サイバーいじめはソーシャルメディアを道具として活用する主要な原因の1つである。 サイバーいじめは宗教、倫理、年齢、ジェンダーに基づいて行われる。 これは、ソーシャルメディアがメディアであり、テキスト形式で大量のデータを生成するため、自然言語処理とディープラーニングを使って対処することができる。 このようなデータは、セマンティクスを見つけ、どのタイプのサイバーいじめが行われ、誰が初期の措置に関与しているのかを導き出すために利用することができる。 セマンティクスの導出が不可欠であるため,Res-CNN-BiLSTMとしてすぐに知られるRes-CNN-BiLSTMを用いた1次元CNN-Bidirectional-LSTMというハイブリッドディープラーニングモデルを提案する。 本稿では,このアーキテクチャを提案し,その性能を埋め込み深層学習アルゴリズムの異なるアプローチと比較した。

Mental Health Disturbance has many reasons and cyberbullying is one of the major causes that does exploitation using social media as an instrument. The cyberbullying is done on the basis of Religion, Ethnicity, Age and Gender which is a sensitive psychological issue. This can be addressed using Natural Language Processing with Deep Learning, since social media is the medium and it generates massive form of data in textual form. Such data can be leveraged to find the semantics and derive what type of cyberbullying is done and who are the people involved for early measures. Since deriving semantics is essential we proposed a Hybrid Deep Learning Model named 1-Dimensional CNN-Bidirectional-LSTMs with Residuals shortly known as Res-CNN-BiLSTM. In this paper we have proposed the architecture and compared its performance with different approaches of Embedding Deep Learning Algorithms.
翻訳日:2022-04-23 05:12:35 公開日:2022-04-20
# (参考訳) 象徴的報酬マシンを用いた逆強化学習への階層ベイズ的アプローチ

A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with Symbolic Reward Machines ( http://arxiv.org/abs/2204.09772v1 )

ライセンス: CC BY 4.0
Weichao Zhou, Wenchao Li(参考訳) 不特定報酬は、サンプル効率を低下させ、強化学習(RL)問題において望ましくない振る舞いを引き起こす。 報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。 象徴的報酬機械は、遷移が述語と象徴的報酬の出力を運べるようにすることで、既存の報酬機械形式を強化している。 この形式主義は逆強化学習に有利であり、いくつかの専門家による実証から象徴的価値に対する適切な割り当てを決定することが鍵となる。 提案する階層的ベイズ的手法は, 帰納的報酬機が, 精度の高い他の軌跡からの軌跡を識別できるような, 最も可能性の高い課題を推定するものである。 実験結果から,学習した報奨機は複雑なRLタスクのトレーニング効率を大幅に向上し,タスク環境の異なる構成でよく一般化できることがわかった。

A misspecified reward can degrade sample efficiency and induce undesired behaviors in reinforcement learning (RL) problems. We propose symbolic reward machines for incorporating high-level task knowledge when specifying the reward signals. Symbolic reward machines augment existing reward machine formalism by allowing transitions to carry predicates and symbolic reward outputs. This formalism lends itself well to inverse reinforcement learning, whereby the key challenge is determining appropriate assignments to the symbolic values from a few expert demonstrations. We propose a hierarchical Bayesian approach for inferring the most likely assignments such that the concretized reward machine can discriminate expert demonstrated trajectories from other trajectories with high accuracy. Experimental results show that learned reward machines can significantly improve training efficiency for complex RL tasks and generalize well across different task environment configurations.
翻訳日:2022-04-23 05:04:32 公開日:2022-04-20
# (参考訳) 推論における注意:データセット、分析、モデリング

Attention in Reasoning: Dataset, Analysis, and Modeling ( http://arxiv.org/abs/2204.09774v1 )

ライセンス: CC BY 4.0
Shi Chen, Ming Jiang, Jinhui Yang and Qi Zhao(参考訳) モデルのパフォーマンスを解釈し向上させるため、深層ニューラルネットワークでは注目がますます高まっているが、タスクを達成するために注意がいかに進行するか、それが妥当であるかについては、ほとんど研究されていない。 本研究では,タスク成果につながるプロセスの理解と改善に注意を払うために,AiR(Attention with Reasoning capabilities)フレームワークを提案する。 まず,原子推論操作の系列に基づく評価指標を定義し,推論過程を考慮した注意の定量的測定を可能にした。 次に、人間の視線追跡と正当性データを収集し、その推論能力とそれがタスクパフォーマンスに与える影響について、様々なマシンおよび人間の注意機構を解析する。 視覚的質問応答モデルの注意と推論能力を向上させるために,推論過程に沿って徐々に注意の学習を監督し,正しい注意パターンと不正確な注意パターンを区別することを提案する。 提案フレームワークは,推論能力とタスク性能が向上した注意分析とモデリングにおいて有効であることを示す。 コードとデータはhttps://github.com/szzexpoi/airで入手できる。

While attention has been an increasingly popular component in deep neural networks to both interpret and boost the performance of models, little work has examined how attention progresses to accomplish a task and whether it is reasonable. In this work, we propose an Attention with Reasoning capability (AiR) framework that uses attention to understand and improve the process leading to task outcomes. We first define an evaluation metric based on a sequence of atomic reasoning operations, enabling a quantitative measurement of attention that considers the reasoning process. We then collect human eye-tracking and answer correctness data, and analyze various machine and human attention mechanisms on their reasoning capability and how they impact task performance. To improve the attention and reasoning ability of visual question answering models, we propose to supervise the learning of attention progressively along the reasoning process and to differentiate the correct and incorrect attention patterns. We demonstrate the effectiveness of the proposed framework in analyzing and modeling attention with better reasoning capability and task performance. The code and data are available at https://github.com/szzexpoi/AiR
翻訳日:2022-04-23 04:27:49 公開日:2022-04-20
# (参考訳) 勾配変換に基づく多焦点画像融合

Multi-Focus Image Fusion based on Gradient Transform ( http://arxiv.org/abs/2204.09777v1 )

ライセンス: CC BY 4.0
Sultan Sevgi Turgut, Mustafa Oral(参考訳) マルチフォーカス画像融合は、焦点と焦点を合わせない画素を統合することで、完全に焦点を絞った画像を提供することを目的とした、挑戦的な研究分野である。 既存の手法の多くは、シフト分散、誤登録画像、データ依存に苦しむ。 本研究では,上記の問題に対してロバストな勾配情報に基づく多焦点画像融合手法を提案する。 提案手法はまず,H-IH変換を用いて元の画像から勾配画像を生成する。 次に、勾配画像の焦点測定として、勾配エネルギー(EOG)と標準偏差関数を用いて融合画像を形成する。 最後に、融合画像を強化するために、多数決方式で決定融合アプローチを適用する。 提案手法は,視覚的,客観的に17種類の新しい手法と従来手法を比較した。 客観的評価には、6つの異なるメトリクスが使用される。 提案手法は視覚的評価により有望であり,客観的評価により6つの指標のうち5つのうち83.3%が第一に達成されている。

Multi-focus image fusion is a challenging field of study that aims to provide a completely focused image by integrating focused and un-focused pixels. Most existing methods suffer from shift variance, misregistered images, and data-dependent. In this study, we introduce a novel gradient information-based multi-focus image fusion method that is robust for the aforementioned problems. The proposed method first generates gradient images from original images by using Halftoning-Inverse Halftoning (H-IH) transform. Then, Energy of Gradient (EOG) and Standard Deviation functions are used as the focus measurement on the gradient images to form a fused image. Finally, in order to enhance the fused image a decision fusion approach is applied with the majority voting method. The proposed method is compared with 17 different novel and conventional techniques both visually and objectively. For objective evaluation, 6 different quantitative metrics are used. It is observed that the proposed method is promising according to visual evaluation and 83.3% success is achieved by being first in five out of six metrics according to objective evaluation.
翻訳日:2022-04-23 03:55:51 公開日:2022-04-20
# (参考訳) 知覚損失を伴う非教師付きマルチドメイン逆ネットワークによる染色正常化保存構造

MultiPathGAN: Structure Preserving Stain Normalization using Unsupervised Multi-domain Adversarial Network with Perception Loss ( http://arxiv.org/abs/2204.09782v1 )

ライセンス: CC BY 4.0
Haseeb Nazki, Ognjen Arandjelovi\'c, InHwa Um, David Harrison(参考訳) 病理組織学は、病気の診断に顕微鏡組織像の分析に依存する。 組織製剤の重要な部分は染色であり、染料を用いて唾液組織成分をより区別しやすくする。 しかし、実験室のプロトコルと走査装置の違いは、対応する画像の外観の大幅な変化をもたらす。 この変動は、人的エラーと層間変動の両方を増大させ、自動または半自動の手法の性能を阻害する。 本稿では,複数のデータ取得領域にまたがる全スライド画像の翻訳(および正規化)を行う非教師付き対向ネットワークを提案する。 私たちの重要な貢献は (i)知覚的損失を最適化した情報フロー分岐を用いて、単一のジェネレータ・判別ネットワークで複数のドメインをまたいで学習する敵対的アーキテクチャ (ii)組織像の全ての構造的特徴を無傷に保つために、トランスフォーメーションネットワークを指導する訓練中に追加的特徴抽出ネットワークが組み込まれること。 私たち i) 腎癌120例のH&Eスライスに対して, 提案法の有効性を示した。 (ii) フレキシブル照明に基づく自然画像強調や光源適応など、より一般的な問題に対するアプローチの利点を示す。

Histopathology relies on the analysis of microscopic tissue images to diagnose disease. A crucial part of tissue preparation is staining whereby a dye is used to make the salient tissue components more distinguishable. However, differences in laboratory protocols and scanning devices result in significant confounding appearance variation in the corresponding images. This variation increases both human error and the inter-rater variability, as well as hinders the performance of automatic or semi-automatic methods. In the present paper we introduce an unsupervised adversarial network to translate (and hence normalize) whole slide images across multiple data acquisition domains. Our key contributions are: (i) an adversarial architecture which learns across multiple domains with a single generator-discriminator network using an information flow branch which optimizes for perceptual loss, and (ii) the inclusion of an additional feature extraction network during training which guides the transformation network to keep all the structural features in the tissue image intact. We: (i) demonstrate the effectiveness of the proposed method firstly on H\&E slides of 120 cases of kidney cancer, as well as (ii) show the benefits of the approach on more general problems, such as flexible illumination based natural image enhancement and light source adaptation.
翻訳日:2022-04-23 03:43:59 公開日:2022-04-20
# (参考訳) 線形関数近似を用いたpomdpのサンプル効率強化学習

Sample-Efficient Reinforcement Learning for POMDPs with Linear Function Approximations ( http://arxiv.org/abs/2204.09787v1 )

ライセンス: CC BY 4.0
Qi Cai, Zhuoran Yang, Zhaoran Wang(参考訳) 関数近似によるマルコフ決定過程(MDP)に対する強化学習(RL)の成功にもかかわらず、ほとんどのRLアルゴリズムは、エージェントが状態の部分的な観察しか持たなければ容易に失敗する。 このような設定はしばしば部分的に観察可能なマルコフ決定過程(pomdp)としてモデル化される。 既存のサンプル効率のアルゴリズムは、状態と観測空間が有限となる表の設定に制限される。 本稿では,関数近似と部分可観測性の間の張力に取り組む最初の試みを行う。 具体的には、線形関数近似を持つ不完全POMDPのクラスに焦点を当て、状態と観測空間を無限にすることができる。 そのようなPOMDPに対して、最適ポリシーと値関数は有限メモリベルマン作用素の列によって特徴づけられることを示す。 本稿では,これらの演算子の楽観的推定をカーネルヒルベルト空間(rkhs)埋め込みを再現することで構成するrlアルゴリズムを提案する。 さらに,提案アルゴリズムが$\varepsilon$-optimal policy with $\tilde O (1/\varepsilon^2)$ episodes of Explorion を求めることを理論的に証明した。 また、このサンプルの複雑さは、POMDP多項式の固有次元にのみ依存し、状態と観測空間のサイズに依存しない。 我々の知る限り、関数近似を用いたPOMDPのための最初の実証可能なサンプル効率アルゴリズムを開発した。

Despite the success of reinforcement learning (RL) for Markov decision processes (MDPs) with function approximation, most RL algorithms easily fail if the agent only has partial observations of the state. Such a setting is often modeled as a partially observable Markov decision process (POMDP). Existing sample-efficient algorithms for POMDPs are restricted to the tabular setting where the state and observation spaces are finite. In this paper, we make the first attempt at tackling the tension between function approximation and partial observability. In specific, we focus on a class of undercomplete POMDPs with linear function approximations, which allows the state and observation spaces to be infinite. For such POMDPs, we show that the optimal policy and value function can be characterized by a sequence of finite-memory Bellman operators. We propose an RL algorithm that constructs optimistic estimators of these operators via reproducing kernel Hilbert space (RKHS) embedding. Moreover, we theoretically prove that the proposed algorithm finds an $\varepsilon$-optimal policy with $\tilde O (1/\varepsilon^2)$ episodes of exploration. Also, this sample complexity only depends on the intrinsic dimension of the POMDP polynomially and is independent of the size of the state and observation spaces. To our best knowledge, we develop the first provably sample-efficient algorithm for POMDPs with function approximation.
翻訳日:2022-04-23 03:30:04 公開日:2022-04-20
# (参考訳) 等質リーマン多様体上のラップ分布

Wrapped Distributions on homogeneous Riemannian manifolds ( http://arxiv.org/abs/2204.09790v1 )

ライセンス: CC BY 4.0
Fernando Galaz-Garcia, Marios Papamichalis, Kathryn Turnbull, Simon Lunagomez, Edoardo Airoldi(参考訳) リーマン多様体上の確率分布を構築するための一般フレームワークを提供し、面積保存写像と等長写像を利用する。 パラメータ、対称性、モダリティなどの分布の性質を制御すれば、モンテカルロアルゴリズムやオートエンコーダなどの潜在変数モデルでの使用に適した、サンプルが容易なフレキシブルな分布群が得られる。 実例として,変動型オートエンコーダと潜在空間ネットワークモデル内で提案した分布を利用して,我々のアプローチを実証的に検証する。 最後に,このフレームワークの一般化した説明を利用して,今後の課題を提起する。

We provide a general framework for constructing probability distributions on Riemannian manifolds, taking advantage of area-preserving maps and isometries. Control over distributions' properties, such as parameters, symmetry and modality yield a family of flexible distributions that are straightforward to sample from, suitable for use within Monte Carlo algorithms and latent variable models, such as autoencoders. As an illustration, we empirically validate our approach by utilizing our proposed distributions within a variational autoencoder and a latent space network model. Finally, we take advantage of the generalized description of this framework to posit questions for future work.
翻訳日:2022-04-23 03:29:00 公開日:2022-04-20
# (参考訳) リアルタイム道路側LiDAR物体検出のためのマルチモーダルガウス混合モデル

Multimodal Gaussian Mixture Model for Realtime Roadside LiDAR Object Detection ( http://arxiv.org/abs/2204.09804v1 )

ライセンス: CC BY 4.0
Tianya Zhang, Peter J. Jin, Yi Ge(参考訳) 背景モデリングは、静的な背景成分を減じることで移動対象を検出するインテリジェントな監視システムに広く利用されている。 多くの路面ライダー物体検出法は、多くのフレーム(例えばボクセル密度、斜面、最大距離)の記述統計に基づいて、新しい点と事前訓練された背景参照を比較して前景をフィルタリングする。 これらの解は重いトラフィックでは効率的ではなく、パラメータの値はあるシナリオから別のシナリオへ転送することが難しい。 初期の研究では、ビデオベースの背景モデリング手法は、疎小で非構造化の点群データのため、ロードサイドのLiDAR監視システムには適さないと考えられていた。 本稿では,各LiDAR点の標高と方位値に基づいて,生のLiDARデータを多次元テンソル構造に変換した。 この高次データ表現により、道路側LiDAR背景モデリングのための効率的なガウス混合モデル(GMM)法を実現するための障壁を破る。 確率的GMMは、優れた俊敏性とリアルタイム能力で構築されている。 提案手法は,2つの最先端の道路沿道の背景モデルと比較し,地点レベル,対象レベル,経路レベルに基づいて評価し,交通量の多い環境下でのロバスト性の向上と難易度を実証した。 このマルチモーダルGMM法は、ノイズ測定による動的バックグラウンドの処理が可能であり、インフラベースのLiDARオブジェクト検出を大幅に強化し、スマートシティアプリケーションのための様々な3Dモデリングを作成することができる。

Background modeling is widely used for intelligent surveillance systems to detect the moving targets by subtracting the static background components. Most roadside LiDAR object detection methods filter out foreground points by comparing new points to pre-trained background references based on descriptive statistics over many frames (e.g., voxel density, slopes, maximum distance). These solutions are not efficient under heavy traffic, and parameter values are hard to transfer from one scenario to another. In early studies, the video-based background modeling methods were considered not suitable for roadside LiDAR surveillance systems due to the sparse and unstructured point clouds data. In this paper, the raw LiDAR data were transformed into a multi-dimensional tensor structure based on the elevation and azimuth value of each LiDAR point. With this high-order data representation, we break the barrier to allow the efficient Gaussian Mixture Model (GMM) method for roadside LiDAR background modeling. The probabilistic GMM is built with superior agility and real-time capability. The proposed Method was compared against two state-of-the-art roadside LiDAR background models and evaluated based on point level, object level, and path level, demonstrating better robustness under heavy traffic and challenging weather. This multimodal GMM method is capable of handling dynamic backgrounds with noisy measurements and substantially enhances the infrastructure-based LiDAR object detection, whereby various 3D modeling for smart city applications could be created
翻訳日:2022-04-23 03:28:05 公開日:2022-04-20
# 異常気象時のリアルタイムバス乗車予測のための機械学習アルゴリズムの評価

Assessing Machine Learning Algorithms for Near-Real Time Bus Ridership Prediction During Extreme Weather ( http://arxiv.org/abs/2204.09792v1 )

ライセンス: Link先を確認
Francisco Rowe and Michael Mahony and Sui Tao(参考訳) 不安定な気候が増すにつれて、天候と交通機関の乗務員との関係がますます関心を集めている。 しかしながら、時空間依存や非定常性から生じる課題は、特に従来の統計的アプローチによる気象条件の影響下でのトランジットライダーシップのモデル化や予測において、完全には解決されていない。 オーストラリアのブリスベンで3ヶ月にわたるスマートカードデータに基づいて、この研究はランダムフォレスト、eXtreme Gradient Boosting (XGBoost)、Tweedie XGBoostといった機械学習アルゴリズムを採用し、気象条件の急激な変化に関連して、ほぼリアルタイムのバス乗り場をモデル化し予測する。 この研究は、気象・乾燥関係の時空間変動のかなりのレベルが存在し、予測誤差の動的パターンが等しく生じることを確認した。 モデル性能のさらなる比較は、Tweedie XGBoostが他の2つの機械学習アルゴリズムより優れていることを示唆している。 将来の研究は、より大きなデータセットを描画し、より高度な機械学習アプローチを適用して、トランジットシステムのリアルタイム運用に関するより高度な証拠を提供することで、現在の研究を前進させる可能性がある。

Given an increasingly volatile climate, the relationship between weather and transit ridership has drawn increasing interest. However, challenges stemming from spatio-temporal dependency and non-stationarity have not been fully addressed in modelling and predicting transit ridership under the influence of weather conditions especially with the traditional statistical approaches. Drawing on three-month smart card data in Brisbane, Australia, this research adopts and assesses a suite of machine-learning algorithms, i.e., random forest, eXtreme Gradient Boosting (XGBoost) and Tweedie XGBoost, to model and predict near real-time bus ridership in relation to sudden change of weather conditions. The study confirms that there indeed exists a significant level of spatio-temporal variability of weather-ridership relationship, which produces equally dynamic patterns of prediction errors. Further comparison of model performance suggests that Tweedie XGBoost outperforms the other two machine-learning algorithms in generating overall more accurate prediction outcomes in space and time. Future research may advance the current study by drawing on larger data sets and applying more advanced machine and deep-learning approaches to provide more enhanced evidence for real-time operation of transit systems.
翻訳日:2022-04-22 14:54:59 公開日:2022-04-20
# 画像品質評価に基づくマルチスケール特徴と並列変圧器

Multi-Scale Features and Parallel Transformers Based Image Quality Assessment ( http://arxiv.org/abs/2204.09779v1 )

ライセンス: Link先を確認
Abhisek Keshari, Komal, Sadbhawna, Badri Subudhi(参考訳) マルチメディアコンテンツの増加に伴い、マルチメディアに関連する歪みの種類も増加している。 画像品質評価のこの問題は、PIPALデータセットにおいて十分に拡張されており、研究者にとって依然として解決すべき課題である。 しかし、最近提案されたトランスフォーマーネットワークは、画像品質評価のために既に文献に使われている。 同時に,マルチスケール特徴抽出が画像品質評価において有望なアプローチであることが確認された。 しかし、トランスフォーマーネットワークを画像品質評価に利用するには、このようなマルチスケール特徴抽出の特性が欠如している。 この事実を本手法で活用し,この2つの画像の品質評価手法を統合することにより,新たなアーキテクチャを提案する。 PIPALデータセットを含む各種データセットの実験により,提案手法が既存のアルゴリズムより優れていることを示す。 提案されたアルゴリズムのソースコードはオンラインで公開されている。

With the increase in multimedia content, the type of distortions associated with multimedia is also increasing. This problem of image quality assessment is expanded well in the PIPAL dataset, which is still an open problem to solve for researchers. Although, recently proposed transformers networks have already been used in the literature for image quality assessment. At the same time, we notice that multi-scale feature extraction has proven to be a promising approach for image quality assessment. However, the way transformer networks are used for image quality assessment until now lacks these properties of multi-scale feature extraction. We utilized this fact in our approach and proposed a new architecture by integrating these two promising quality assessment techniques of images. Our experimentation on various datasets, including the PIPAL dataset, demonstrates that the proposed integration technique outperforms existing algorithms. The source code of the proposed algorithm is available online: https://github.com/KomalPal9610/IQA
翻訳日:2022-04-22 14:50:22 公開日:2022-04-20
# 線形関数近似を用いた分散型時間差分学習における有限時間推定誤差の厳密式

Exact Formulas for Finite-Time Estimation Errors of Decentralized Temporal Difference Learning with Linear Function Approximation ( http://arxiv.org/abs/2204.09801v1 )

ライセンス: Link先を確認
Xingang Guo, Bin Hu(参考訳) 本稿では,マルチエージェント強化学習(marl)における政策評価問題と,線形関数近似を用いた分散時間差(td)学習の有限時間平均二乗推定誤差の完全閉形式式を導出する。 我々の分析は、分散化されたTD学習手法をマルコフジャンプ線形システム(MJLS)とみなすことができるという事実に基づいている。 そして、標準的なMJLS理論を適用して、分散化されたTD法の推定誤差の平均と共分散行列を各ステップで定量化することができる。 また, アルゴリズム性能に対する計算式の影響についても考察した。 興味深い発見は、必要十分安定条件の下で平均二乗td推定誤差が特定の指数速度で正確な限界に収束することである。

In this paper, we consider the policy evaluation problem in multi-agent reinforcement learning (MARL) and derive exact closed-form formulas for the finite-time mean-squared estimation errors of decentralized temporal difference (TD) learning with linear function approximation. Our analysis hinges upon the fact that the decentralized TD learning method can be viewed as a Markov jump linear system (MJLS). Then standard MJLS theory can be applied to quantify the mean and covariance matrix of the estimation error of the decentralized TD method at every time step. Various implications of our exact formulas on the algorithm performance are also discussed. An interesting finding is that under a necessary and sufficient stability condition, the mean-squared TD estimation error will converge to an exact limit at a specific exponential rate.
翻訳日:2022-04-22 14:48:09 公開日:2022-04-20
# DeepONetを用いた条件シフトによる偏微分方程式のディープラーニング学習

Deep transfer learning for partial differential equations under conditional shift with DeepONet ( http://arxiv.org/abs/2204.09810v1 )

ライセンス: Link先を確認
Somdatta Goswami, Katiana Kontolati, Michael D. Shields, George Em Karniadakis(参考訳) 従来の機械学習アルゴリズムは、独立して学習するように設計されている。 伝達学習(TL)の中核的な考え方は、1つのタスク(ソース)を実行するための学習で得られた知識を、関連するが異なるタスク(ターゲット)での学習性能を改善するために利用することができることである。 TLは、データ取得とラベル付けのコスト、潜在的な計算能力制限、データセットの分布ミスマッチに対処するために、以前取得した知識を活用して転送する。 TLの画像処理、音声認識、自然言語処理(分類と回帰)の分野では大きな進歩があったが、偏微分方程式における機能的回帰と不確かさの定量化のための科学機械学習の分野ではほとんど行われていない。 本研究では,DeepONet(DeepONet)を用いた条件シフト下でのタスク固有学習のための新しいTLフレームワークを提案する。 条件付き埋め込み作用素理論に着想を得て、条件付き分布を再生核ヒルベルト空間に埋め込むことにより、ソース領域と対象特徴領域の間の統計的距離を測定する。 タスク固有の演算子学習は、ターゲットデータの条件分布のグローバルな特性を保ちながら、個々のターゲットサンプルのマッチングを可能にするハイブリッド損失関数を使用して、ターゲットのDeepONetのタスク固有の層を微調整することで達成される。 条件シフト中の非線形PDEを含む様々なTLシナリオに対して,本手法の利点を示す。 提案するTLフレームワークは,ソースドメインとターゲットドメインの間に大きな違いがあるにもかかわらず,高速かつ効率的なマルチタスク演算子学習を可能にすることを示す。

Traditional machine learning algorithms are designed to learn in isolation, i.e. address single tasks. The core idea of transfer learning (TL) is that knowledge gained in learning to perform one task (source) can be leveraged to improve learning performance in a related, but different, task (target). TL leverages and transfers previously acquired knowledge to address the expense of data acquisition and labeling, potential computational power limitations, and the dataset distribution mismatches. Although significant progress has been made in the fields of image processing, speech recognition, and natural language processing (for classification and regression) for TL, little work has been done in the field of scientific machine learning for functional regression and uncertainty quantification in partial differential equations. In this work, we propose a novel TL framework for task-specific learning under conditional shift with a deep operator network (DeepONet). Inspired by the conditional embedding operator theory, we measure the statistical distance between the source domain and the target feature domain by embedding conditional distributions onto a reproducing kernel Hilbert space. Task-specific operator learning is accomplished by fine-tuning task-specific layers of the target DeepONet using a hybrid loss function that allows for the matching of individual target samples while also preserving the global properties of the conditional distribution of target data. We demonstrate the advantages of our approach for various TL scenarios involving nonlinear PDEs under conditional shift. Our results include geometry domain adaptation and show that the proposed TL framework enables fast and efficient multi-task operator learning, despite significant differences between the source and target domains.
翻訳日:2022-04-22 14:00:26 公開日:2022-04-20
# multiply-and-fire (mnf): イベント駆動スパースニューラルネットワークアクセラレータ

Multiply-and-Fire (MNF): An Event-driven Sparse Neural Network Accelerator ( http://arxiv.org/abs/2204.09797v1 )

ライセンス: Link先を確認
Miao Yu, Tingting Xiang, Venkata Pavan Kumar Miriyala, Trevor E. Carlson(参考訳) 機械学習、特にディープニューラルネットワーク推論は、データセンターやHPCシステムからエッジベースのコンピューティングに至るまで、多くのコンピューティングシステムにとって重要なワークロードとなっている。 スパーシティの進歩がaiアクセラレーションの効率向上に寄与しているため、ハイパフォーマンスとシステムレベルのアクセラレーションの両方において、システム効率の向上が引き続き求められている。 この研究は、ANNアクセラレーションに対するイベント(あるいはアクティベーション駆動)アプローチによって、無駄な作業の最小化、利用率の向上、パフォーマンスとエネルギー効率の向上を目的としている。 分析および実験結果から、このイベント駆動型ソリューションは、CNNとMLPの両方のワークロードに対して、高効率なAI推論を可能にするために、新たな方向を示すことが示された。 本研究は, 機能単位全体の利用効率を30fpsで向上させる高並列データフロー法と, アクティベーションベース空間におけるエネルギー効率と性能中心性を示す。 この研究は、最先端の解に対するエネルギー効率を 1.46$\times$ で向上させる。 総合すると、この方法論は次世代aiアクセラレーションプラットフォームの高性能で高性能な設計を実現するための新しい方向性を示す。

Machine learning, particularly deep neural network inference, has become a vital workload for many computing systems, from data centers and HPC systems to edge-based computing. As advances in sparsity have helped improve the efficiency of AI acceleration, there is a continued need for improved system efficiency for both high-performance and system-level acceleration. This work takes a unique look at sparsity with an event (or activation-driven) approach to ANN acceleration that aims to minimize useless work, improve utilization, and increase performance and energy efficiency. Our analytical and experimental results show that this event-driven solution presents a new direction to enable highly efficient AI inference for both CNN and MLP workloads. This work demonstrates state-of-the-art energy efficiency and performance centring on activation-based sparsity and a highly-parallel dataflow method that improves the overall functional unit utilization (at 30 fps). This work enhances energy efficiency over a state-of-the-art solution by 1.46$\times$. Taken together, this methodology presents a novel, new direction to achieve high-efficiency, high-performance designs for next-generation AI acceleration platforms.
翻訳日:2022-04-22 13:59:15 公開日:2022-04-20
# 省エネルギー無線ネットワークのためのフェデレーションラーニング:部分モデルアグリゲーションアプローチ

Federated Learning for Energy-limited Wireless Networks: A Partial Model Aggregation Approach ( http://arxiv.org/abs/2204.09746v1 )

ライセンス: Link先を確認
Zhixiong Chen, Wenqiang Yi, Arumugam Nallanathan, Geoffrey Ye Li(参考訳) 例えば、帯域幅とエネルギー、デバイス間のデータの均一性といった限られた通信資源は、連邦学習(FL)の主要なボトルネックである。 これらの課題に取り組むため,我々はまず,複雑なパターン認識に対応する上層層がパーソナライズのためのデバイスに残されている間に,特徴抽出を担うニューラルネットワークの下位層のみを集約する部分モデル集約(pma)を備えた新しいflフレームワークを考案した。 提案したPMA-FLは、データの不均一性に対処し、無線チャネル内の送信情報を低減できる。 次に、非凸損失関数設定の下でフレームワークの収束境界を得る。 そこで,本研究では,データサンプルボリュームと呼ばれる新しい目的関数を定義し,機器スケジューリング,帯域割り当て,計算,通信時間分割のための抽出可能な問題に元の不適用最適化問題を転送する。 解析の結果,PMA-FLの通信部と計算部が同じパワーを持つ場合,最適時間分割が達成されることがわかった。 また、最適な帯域割り当てポリシーを解くための分岐法を開発し、設定拡張アルゴリズムを用いて最適なデバイススケジューリングに対処する。 最先端のベンチマークと比較すると、提案されたPMA-FLは2.72%と11.6%の精度を改善している。 さらに, 提案手法は, 検討したベンチマークよりも若干高い精度を実現しているが, 29%のエネルギーと20%の時間削減, 25%のエネルギーと12.5%のcifar-10の時間削減という, 十分なエネルギーと時間削減を実現している。

The limited communication resources, e.g., bandwidth and energy, and data heterogeneity across devices are two of the main bottlenecks for federated learning (FL). To tackle these challenges, we first devise a novel FL framework with partial model aggregation (PMA), which only aggregates the lower layers of neural networks responsible for feature extraction while the upper layers corresponding to complex pattern recognition remain at devices for personalization. The proposed PMA-FL is able to address the data heterogeneity and reduce the transmitted information in wireless channels. We then obtain a convergence bound of the framework under a non-convex loss function setting. With the aid of this bound, we define a new objective function, named the scheduled data sample volume, to transfer the original inexplicit optimization problem into a tractable one for device scheduling, bandwidth allocation, computation and communication time division. Our analysis reveals that the optimal time division is achieved when the communication and computation parts of PMA-FL have the same power. We also develop a bisection method to solve the optimal bandwidth allocation policy and use the set expansion algorithm to address the optimal device scheduling. Compared with the state-of-the-art benchmarks, the proposed PMA-FL improves 2.72% and 11.6% accuracy on two typical heterogeneous datasets, i.e., MINIST and CIFAR-10, respectively. In addition, the proposed joint dynamic device scheduling and resource optimization approach achieve slightly higher accuracy than the considered benchmarks, but they provide a satisfactory energy and time reduction: 29% energy or 20% time reduction on the MNIST; and 25% energy or 12.5% time reduction on the CIFAR-10.
翻訳日:2022-04-22 13:47:44 公開日:2022-04-20
# FairDMS: データとモデル再利用による迅速なモデルトレーニング

fairDMS: Rapid Model Training by Data and Model Reuse ( http://arxiv.org/abs/2204.09805v1 )

ライセンス: Link先を確認
Ahsan Ali, Hemant Sharma, Rajkumar Kettimuthu, Peter Kenesei, Dennis Trujillo, Antonino Miceli, Ian Foster, Ryan Coffee, Jana Thayer and Zhengchun Liu(参考訳) linacコヒーレント光源(lcls-ii)やadvanced photon source upgrade(aps-u)などのデータソースから実行可能な情報を抽出することは、急成長するデータ生成率のために難しくなっている。 MLメソッドによる高速解析により、例えばエラーが発生したり、興味深いイベントが検出された場合に、リアルタイムで実験的な設定を調整するために使用できる高速なフィードバックループが可能になる。 しかし,楽器やサンプルの変化によるML性能の劣化を避けるためには,実験中にMLモデルを高速に更新する方法が必要である。 ここでは、MLベースの科学応用に焦点を当てたディープニューラルネットワークトレーニングを加速するデータサービスとモデルサービスを紹介します。 提案するデータサービスは,現在のデータラベリングと比較して,100倍のスピードアップを実現している。 さらに,本モデルサービスは,最大200倍のトレーニング速度向上を実現している。 全体として、FairDMSはエンドツーエンドモデルの更新時間で最大92倍のスピードアップを達成する。

Extracting actionable information from data sources such as the Linac Coherent Light Source (LCLS-II) and Advanced Photon Source Upgrade (APS-U) is becoming more challenging due to the fast-growing data generation rate. The rapid analysis possible with ML methods can enable fast feedback loops that can be used to adjust experimental setups in real-time, for example when errors occur or interesting events are detected. However, to avoid degradation in ML performance over time due to changes in an instrument or sample, we need a way to update ML models rapidly while an experiment is running. We present here a data service and model service to accelerate deep neural network training with a focus on ML-based scientific applications. Our proposed data service achieves 100x speedup in terms of data labeling compare to the current state-of-the-art. Further, our model service achieves up to 200x improvement in training speed. Overall, fairDMS achieves up to 92x speedup in terms of end-to-end model updating time.
翻訳日:2022-04-22 13:47:10 公開日:2022-04-20
# クロスモーダル食品検索のためのマルチモーダル正規化トランスフォーマーデコーダ

Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval ( http://arxiv.org/abs/2204.09730v1 )

ライセンス: Link先を確認
Mustafa Shukor, Guillaume Couairon, Asya Grechka, Matthieu Cord(参考訳) 近年,クロスモーダル画像検索が注目されている。 ほとんどの作業はユニモーダルエンコーダを用いたクロスモーダル埋め込みの改善に焦点を当てており、これは大規模なデータベースでの効率的な検索を可能にする。 本稿では,新しい正規化方式におけるモダリティ間の相互作用を利用した新しい検索フレームワーク t-food (transformer decoder with multimodal regularization for cross-modal food retrieval) を提案する。 また,レシピエンティティ間の依存性を専用のレシピエンコーダでキャプチャし,タスクの難易度に適応する動的マージンを持つ3重項損失の新しい変種を提案する。 最後に、画像エンコーダのCLIPのような最近のビジョン・アンド・ランゲージ事前学習(VLP)モデルのパワーを利用する。 我々のアプローチは、Recipe1Mデータセットにおいて、既存のアプローチよりも大きなマージンで優れています。 具体的には、1k と 10k のテストセットでそれぞれ 8.1 % (72.6 R@1) と +10.9 % (44.6 R@1) の絶対的な改善を達成する。 コードはここにある。https://github.com/mshukor/TFood

Cross-modal image-recipe retrieval has gained significant attention in recent years. Most work focuses on improving cross-modal embeddings using unimodal encoders, that allow for efficient retrieval in large-scale databases, leaving aside cross-attention between modalities which is more computationally expensive. We propose a new retrieval framework, T-Food (Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval) that exploits the interaction between modalities in a novel regularization scheme, while using only unimodal encoders at test time for efficient retrieval. We also capture the intra-dependencies between recipe entities with a dedicated recipe encoder, and propose new variants of triplet losses with dynamic margins that adapt to the difficulty of the task. Finally, we leverage the power of the recent Vision and Language Pretraining (VLP) models such as CLIP for the image encoder. Our approach outperforms existing approaches by a large margin on the Recipe1M dataset. Specifically, we achieve absolute improvements of 8.1 % (72.6 R@1) and +10.9 % (44.6 R@1) on the 1k and 10k test sets respectively. The code is available here:https://github.com/mshukor/TFood
翻訳日:2022-04-22 13:20:51 公開日:2022-04-20
# 無線カプセル内視鏡における時間的自己教師付き学習

Time-based Self-supervised Learning for Wireless Capsule Endoscopy ( http://arxiv.org/abs/2204.09773v1 )

ライセンス: Link先を確認
Guillem Pascual, Pablo Laiz, Albert Garc\'ia, Hagen Wenzek, Jordi Vitri\`a, Santi Segu\'i(参考訳) 最先端の機械学習モデル、特にディープラーニングモデルは非常にデータ量が多く、正しく機能するには大量の手作業によるラベル付きサンプルが必要である。 しかし、ほとんどの医療画像分野において、そのようなデータを得ることは困難である。 データの量だけでなく、クラス内の不均衡も問題であり、病理疾患患者よりも健康な患者のイメージが多いことが一般的である。 コンピュータ支援診断システムはこれらの問題に悩まされ、通常モデルが正確に動作するように過度に設計される。 本研究は,まずラベルや適切なバランスを必要としないカスタマイズ方式を導入することで,無線内視鏡映像に対する自己教師あり学習の利用を提案する。 本手法は, 時間軸から抽出した推定固有構造を用いることで, 厳しい不均衡下でも複数の領域特異的なアプリケーションの検出率を向上できることを実証する。

State-of-the-art machine learning models, and especially deep learning ones, are significantly data-hungry; they require vast amounts of manually labeled samples to function correctly. However, in most medical imaging fields, obtaining said data can be challenging. Not only the volume of data is a problem, but also the imbalances within its classes; it is common to have many more images of healthy patients than of those with pathology. Computer-aided diagnostic systems suffer from these issues, usually over-designing their models to perform accurately. This work proposes using self-supervised learning for wireless endoscopy videos by introducing a custom-tailored method that does not initially need labels or appropriate balance. We prove that using the inferred inherent structure learned by our method, extracted from the temporal axis, improves the detection rate on several domain-specific applications even under severe imbalance.
翻訳日:2022-04-22 13:20:28 公開日:2022-04-20
# バイオメディカル文献のための多ラベル分類:COVID-19文献トピックアノテーションのためのBioCreative VII LitCovid Trackの概要

Multi-label classification for biomedical literature: an overview of the BioCreative VII LitCovid Track for COVID-19 literature topic annotations ( http://arxiv.org/abs/2204.09781v1 )

ライセンス: Link先を確認
Qingyu Chen, Alexis Allot, Robert Leaman, Rezarta Islamaj Do\u{g}an, Jingcheng Du, Li Fang, Wang Kai, Shuo Xu, Yuefu Zhang, Parsa Bagherzadeh, Sabine Bergler, Aakash Bhatnagar, Nidhir Bhavsar, Yung-Chun Chang, Sheng-Jie Lin, Wentai Tang, Hongtong Zhang, Ilija Tavchioski, Shubo Tian, Jinfeng Zhang, Yulia Otmakhova, Antonio Jimeno Yepes, Hang Dong, Honghan Wu, Richard Dufour, Yanis Labrak, Niladri Chatterjee, Kushagri Tandon, Fr\'ejus Laleye, Lo\"ic Rakotoson, Emmanuele Chersoni, Jinghang Gu, Annemarie Friedrich, Subhash Chandra Pujari, Mariia Chizhikova, Naveen Sivadasan, Naveen Sivadasan, Zhiyong Lu(参考訳) 新型コロナウイルスのパンデミックは、2019年12月から世界社会に深刻な影響を与えている。 ウイルスの特徴を理解し、ワクチンや医薬品を設計するための大規模な研究が行われている。 関連する研究は、バイオメディカルの文献で1ヶ月あたり約1万記事のペースで報告されている。 このような急速な成長は、手作業によるキュレーションと解釈に大きく挑戦する。 たとえばlitcovidは、pubmedのcovid-19関連記事のデータベースで、全世界のユーザが毎月数百万のアクセスを持つ20万以上の記事を集めている。 主要なキュレーションの1つは、LitCovidの記事に最大8つのトピック(診断と治療)を割り当てることである。 生物医学的なテキストマイニング手法の進歩にもかかわらず、covid-19文学におけるトピックアノテーションを専門とする者は少ない。 このギャップを埋めるために、私たちはBioCreative LitCovidトラックを組織し、COVID-19文献の自動トピックアノテーションに取り組むコミュニティの取り組みを呼びかけました。 BioCreative LitCovidデータセットは、3万以上の記事と手動でレビューされたトピックで構成され、トレーニングとテストのために作成された。 生物医学的な科学文献において最大のマルチラベル分類データセットの1つである。 全19チームが参加し、合計80試合に出場した。 ほとんどのチームはトランスフォーマーに基づいたハイブリッドシステムを使用した。 最高パフォーマンスは0.8875、0.9181、0.9394、マクロF1スコア、マイクロF1スコア、インスタンスベースのF1スコアである。 参加と結果のレベルは、成功したトラックを示し、データセットのキュレーションとメソッド開発の間のギャップを埋めるのに役立つ。 データセットは https://ftp.ncbi.nlm.nih.gov/pub/lu/LitCovid/biocreative/ で公開されている。

The COVID-19 pandemic has been severely impacting global society since December 2019. Massive research has been undertaken to understand the characteristics of the virus and design vaccines and drugs. The related findings have been reported in biomedical literature at a rate of about 10,000 articles on COVID-19 per month. Such rapid growth significantly challenges manual curation and interpretation. For instance, LitCovid is a literature database of COVID-19-related articles in PubMed, which has accumulated more than 200,000 articles with millions of accesses each month by users worldwide. One primary curation task is to assign up to eight topics (e.g., Diagnosis and Treatment) to the articles in LitCovid. Despite the continuing advances in biomedical text mining methods, few have been dedicated to topic annotations in COVID-19 literature. To close the gap, we organized the BioCreative LitCovid track to call for a community effort to tackle automated topic annotation for COVID-19 literature. The BioCreative LitCovid dataset, consisting of over 30,000 articles with manually reviewed topics, was created for training and testing. It is one of the largest multilabel classification datasets in biomedical scientific literature. 19 teams worldwide participated and made 80 submissions in total. Most teams used hybrid systems based on transformers. The highest performing submissions achieved 0.8875, 0.9181, and 0.9394 for macro F1-score, micro F1-score, and instance-based F1-score, respectively. The level of participation and results demonstrate a successful track and help close the gap between dataset curation and method development. The dataset is publicly available via https://ftp.ncbi.nlm.nih.gov/pub/lu/LitCovid/biocreative/ for benchmarking and further development.
翻訳日:2022-04-22 12:59:51 公開日:2022-04-20
# GUARD: Graph Universal Adversarial Defense

GUARD: Graph Universal Adversarial Defense ( http://arxiv.org/abs/2204.09803v1 )

ライセンス: Link先を確認
Jintang Li, Jie Liao, Ruofan Wu, Liang Chen, Changhua Meng, Zibin Zheng, Weiqiang Wang(参考訳) 近年、グラフ畳み込みネットワーク (GCN) は、小さな敵の摂動に弱いことが示されており、これは深刻な脅威となり、セキュリティクリティカルなシナリオにおけるアプリケーションを大幅に制限している。 このような脅威を軽減するため、GCNの敵攻撃に対する堅牢性を高めるためにかなりの研究努力が注がれている。 しかし、現在の防衛のアプローチは、グラフ全体を対象として設計され、グローバルなパフォーマンスを考慮しており、重要なローカルノードを攻撃対象とする攻撃から守る上での課題となっている。 本稿では, 単純で効果的な方法である \textbf{\underline{G}}raph \textbf{\underline{U}}niversal \textbf{\underline{A}}dve\textbf{\underline{R}}sarial \textbf{\underline{D}}efense (GUARD) を提案する。 以前の作業とは異なり、GUARDは各ノードを共通の防御パッチで攻撃から保護しており、これは一度生成され、グラフ内の任意のノード(ノードに依存しない)に適用できる。 4つのベンチマークデータセットに対する大規模な実験により,提案手法は複数のGCNに対して高いロバスト性を向上し,既存の敵防衛手法よりも大きなマージンで優れていることが示された。 私たちのコードはhttps://github.com/EdisonLeeeee/GUARD.comで公開されています。

Recently, graph convolutional networks (GCNs) have shown to be vulnerable to small adversarial perturbations, which becomes a severe threat and largely limits their applications in security-critical scenarios. To mitigate such a threat, considerable research efforts have been devoted to increasing the robustness of GCNs against adversarial attacks. However, current approaches for defense are typically designed for the whole graph and consider the global performance, posing challenges in protecting important local nodes from stronger adversarial targeted attacks. In this work, we present a simple yet effective method, named \textbf{\underline{G}}raph \textbf{\underline{U}}niversal \textbf{\underline{A}}dve\textbf{\underline{R}}sarial \textbf{\underline{D}}efense (GUARD). Unlike previous works, GUARD protects each individual node from attacks with a universal defensive patch, which is generated once and can be applied to any node (node-agnostic) in a graph. Extensive experiments on four benchmark datasets demonstrate that our method significantly improves robustness for several established GCNs against multiple adversarial attacks and outperforms existing adversarial defense methods by large margins. Our code is publicly available at https://github.com/EdisonLeeeee/GUARD.
翻訳日:2022-04-22 12:58:36 公開日:2022-04-20
# FS-NCSR:周波数分離と雑音条件正規化流による超解像空間の多様性の向上

FS-NCSR: Increasing Diversity of the Super-Resolution Space via Frequency Separation and Noise-Conditioned Normalizing Flow ( http://arxiv.org/abs/2204.09679v1 )

ライセンス: Link先を確認
Ki-Ung Song, Dongseok Shim, Kang-wook Kim, Jae-young Lee, Younggeun Kim(参考訳) 超解像は、1つの低分解能(LR)画像が複数の高分解能(HR)画像から得られるという本質的に不適切な問題に悩まされる。 フローベースアルゴリズムの最近の研究は、超解像空間を学習し、多様なHR出力を予測することによって、この不正を解消している。 残念ながら、超解像出力の多様性はまだ不十分であり、フローベースモデルからの出力は通常、低品質な出力を引き起こす望ましくない成果物に悩まされる。 本稿では,従来のフローベース手法と比較して,周波数分離と雑音条件を用いた多種多様な高品質超解像出力を生成するFS-NCSRを提案する。 画像のシャープさと高品質さは高周波情報に依存するため、FS-NCSRは冗長な低周波成分を持たない高分解能出力の高周波情報のみを推定する。 これにより、FS-NCSRは、以前のNTIRE 2021チャレンジの勝者であるNCSRと比較して、画像品質を著しく低下させることなく、多様性のスコアを著しく改善する。

Super-resolution suffers from an innate ill-posed problem that a single low-resolution (LR) image can be from multiple high-resolution (HR) images. Recent studies on the flow-based algorithm solve this ill-posedness by learning the super-resolution space and predicting diverse HR outputs. Unfortunately, the diversity of the super-resolution outputs is still unsatisfactory, and the outputs from the flow-based model usually suffer from undesired artifacts which causes low-quality outputs. In this paper, we propose FS-NCSR which produces diverse and high-quality super-resolution outputs using frequency separation and noise conditioning compared to the existing flow-based approaches. As the sharpness and high-quality detail of the image rely on its high-frequency information, FS-NCSR only estimates the high-frequency information of the high-resolution outputs without redundant low-frequency components. Through this, FS-NCSR significantly improves the diversity score without significant image quality degradation compared to the NCSR, the winner of the previous NTIRE 2021 challenge.
翻訳日:2022-04-22 12:57:10 公開日:2022-04-20
# selma: 天候, 日中, 視点による意味的大規模マルチモーダル獲得

SELMA: SEmantic Large-scale Multimodal Acquisitions in Variable Weather, Daytime and Viewpoints ( http://arxiv.org/abs/2204.09788v1 )

ライセンス: Link先を確認
Paolo Testolina and Francesco Barbato, Umberto Michieli, Marco Giordani, Pietro Zanuttigh, Michele Zorzi(参考訳) 車に搭載された複数のセンサーからの正確なシーン理解は、自動運転システムにとって重要な要件である。 今日では、このタスクは主に、トレーニングに非常に大量のデータを必要とするデータ・ハングリーなディープラーニング技術によって行われる。 セグメンテーションラベリングのコストが高いため、多くの合成データセットが提案されている。 しかし、これらのデータの多くはマルチセンサーの性質を見逃しており、昼間や天候の変化によってもたらされる大きな変化を捉えていない。 これらのギャップを埋めるために,SELMAは,RGB,深度,セマンティックカメラ,LiDARを含む24種類のセンサから取得した30万以上の独自のウェイポイントを含む,セマンティックセグメンテーションのための新しい合成データセットである。 SELMAは、自律運転シナリオで合成データを生成するためのオープンソースのシミュレータであるCARLAをベースとして、シーンやクラスセットの多様性と多様性を高め、それを他のベンチマークデータセットと整合させるように修正しました。 実験結果から示すように、SELMAは標準およびマルチモーダルなディープラーニングアーキテクチャの効率的なトレーニングを可能にし、実世界のデータに対して顕著な結果が得られる。 SELMAは無料で公開されており、オープンサイエンスと研究をサポートしている。

Accurate scene understanding from multiple sensors mounted on cars is a key requirement for autonomous driving systems. Nowadays, this task is mainly performed through data-hungry deep learning techniques that need very large amounts of data to be trained. Due to the high cost of performing segmentation labeling, many synthetic datasets have been proposed. However, most of them miss the multi-sensor nature of the data, and do not capture the significant changes introduced by the variation of daytime and weather conditions. To fill these gaps, we introduce SELMA, a novel synthetic dataset for semantic segmentation that contains more than 30K unique waypoints acquired from 24 different sensors including RGB, depth, semantic cameras and LiDARs, in 27 different atmospheric and daytime conditions, for a total of more than 20M samples. SELMA is based on CARLA, an open-source simulator for generating synthetic data in autonomous driving scenarios, that we modified to increase the variability and the diversity in the scenes and class sets, and to align it with other benchmark datasets. As shown by the experimental evaluation, SELMA allows the efficient training of standard and multi-modal deep learning architectures, and achieves remarkable results on real-world data. SELMA is free and publicly available, thus supporting open science and research.
翻訳日:2022-04-22 12:36:13 公開日:2022-04-20
# 非負二元行列分解のための主元化最小化アルゴリズム

A majorization-minimization algorithm for nonnegative binary matrix factorization ( http://arxiv.org/abs/2204.09741v1 )

ライセンス: Link先を確認
Paul Magron, C\'edric F\'evotte(参考訳) 本稿では,行列分解を用いたバイナリデータの分解問題に取り組む。 平均パラメタライズされたベルヌーイモデル(英語版)は、バイナリデータのモデリングに適した生成モデルのクラスであり、因子の解釈可能性を実現する。 我々はベルヌーイパラメータを分解し、モデルの表現力をさらに向上させる要因の1つに先立って追加のベータを考える。 類似したモデルが文献で提案されているが、それらはベイズ的設定において有効なベルヌーイパラメータを保証するためにプロキシとしてベータ前しか利用していない。 さらに、これらのモデルにおける推定はコストの高いベイズ推定に焦点を当てている。 本稿では,最大後方推定のための単純かつ高効率なマージ化最小化アルゴリズムを提案する。 提案手法は,行列補完タスクの性能向上のためにパラメータを調整可能なベータ前処理を利用する。 3つの公開バイナリデータセットで行った実験は、我々のアプローチが予測性能、計算複雑性、解釈可能性の間の優れたトレードオフを提供することを示している。

This paper tackles the problem of decomposing binary data using matrix factorization. We consider the family of mean-parametrized Bernoulli models, a class of generative models that are well suited for modeling binary data and enables interpretability of the factors. We factorize the Bernoulli parameter and consider an additional Beta prior on one of the factors to further improve the model's expressive power. While similar models have been proposed in the literature, they only exploit the Beta prior as a proxy to ensure a valid Bernoulli parameter in a Bayesian setting; in practice it reduces to a uniform or uninformative prior. Besides, estimation in these models has focused on costly Bayesian inference. In this paper, we propose a simple yet very efficient majorization-minimization algorithm for maximum a posteriori estimation. Our approach leverages the Beta prior whose parameters can be tuned to improve performance in matrix completion tasks. Experiments conducted on three public binary datasets show that our approach offers an excellent trade-off between prediction performance, computational complexity, and interpretability.
翻訳日:2022-04-22 12:32:23 公開日:2022-04-20
# BitChuteの心理言語学的分析

A Psycho-linguistic Analysis of BitChute ( http://arxiv.org/abs/2204.08078v2 )

ライセンス: Link先を確認
Benjamin D. Horne(参考訳) 研究者,ジャーナリスト,実践者がMeLa-BitChuteデータセットを探索および調査報告に使用することを支援するため,LIWC22を用いて,データセット内のビデオ,コメント,チャネルに対して,新たな心理言語メタデータを提供する。 本稿ではメタデータを用いてデータをフィルタリングするメタデータと手法について述べる。 さらに,BitChute上の言語を他のソーシャルメディアプラットフォームと比較する基礎的な分析と比較を行う。 この論文で説明されているMeLa-BitChuteデータセットとLIWCメタデータは以下のとおりである。 persistenceid=doi:10.7910/dvn/krd1vs。

In order to better support researchers, journalist, and practitioners in their use of the MeLa-BitChute dataset for exploration and investigative reporting, we provide new psycho-linguistic metadata for the videos, comments, and channels in the dataset using LIWC22. This paper describes that metadata and methods to filter the data using the metadata. In addition, we provide basic analysis and comparison of the language on BitChute to other social media platforms. The MeLa-BitChute dataset and LIWC metadata described in this paper can be found at: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/KRD1VS.
翻訳日:2022-04-22 12:04:58 公開日:2022-04-20
# MUGEN:ビデオ音声によるマルチモーダル理解とジェネレーションのためのプレイグラウンド

MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration ( http://arxiv.org/abs/2204.08058v2 )

ライセンス: Link先を確認
Thomas Hayes, Songyang Zhang, Xi Yin, Guan Pang, Sasha Sheng, Harry Yang, Songwei Ge, Qiyuan Hu, and Devi Parikh(参考訳) マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。 この狭さは、研究コミュニティが前進できる小さな挑戦を可能にします。 豊かさは、コア課題に沿って前進することを保証する。 そこで我々は,オープンソースのプラットフォームゲームCoinRun [11]を用いて収集した大規模ビデオオーディオテキストデータセットMUGENを提案する。 音声を導入し,新たなインタラクションを実現することで,ゲームをよりリッチにするための大幅な修正を行った。 我々はRLエージェントを異なる目的で訓練し、ゲームをナビゲートし、13のオブジェクトやキャラクタと対話した。 これにより、さまざまなビデオと関連するオーディオの大規模なコレクションを自動的に抽出できます。 375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。 各ビデオには、各フレームの正確なセマンティックマップやテンプレート化されたテキスト記述など、ゲームエンジンから自動的に抽出されるアノテーションが追加されている。 総じて、mugenはマルチモーダル理解と生成における多くのタスクの進捗研究に役立つ。 我々は,映像音声の検索と生成に関わるタスクに対する代表的アプローチをベンチマークする。 私たちのデータセットとコードは、https://mugen-org.github.io/でリリースされます。

Multimodal video-audio-text understanding and generation can benefit from datasets that are narrow but rich. The narrowness allows bite-sized challenges that the research community can make progress on. The richness ensures we are making progress along the core challenges. To this end, we present a large-scale video-audio-text dataset MUGEN, collected using the open-sourced platform game CoinRun [11]. We made substantial modifications to make the game richer by introducing audio and enabling new interactions. We trained RL agents with different objectives to navigate the game and interact with 13 objects and characters. This allows us to automatically extract a large collection of diverse videos and associated audio. We sample 375K video clips (3.2s each) and collect text descriptions from human annotators. Each video has additional annotations that are extracted automatically from the game engine, such as accurate semantic maps for each frame and templated textual descriptions. Altogether, MUGEN can help progress research in many tasks in multimodal understanding and generation. We benchmark representative approaches on tasks involving video-audio-text retrieval and generation. Our dataset and code are released at: https://mugen-org.github.io/.
翻訳日:2022-04-22 11:45:57 公開日:2022-04-20
# (参考訳) 病理組織データの比較のための階層的最適輸送

Hierarchical Optimal Transport for Comparing Histopathology Datasets ( http://arxiv.org/abs/2204.08324v2 )

ライセンス: CC BY 4.0
Anna Yeaton, Rahul G. Krishnan, Rebecca Mieloszyk, David Alvarez-Melis and Grace Huynh(参考訳) ラベル付き病理データの共有は、深層学習法のがんタイプやラベルへの適用性を制限している。 転送学習により、研究者は小さなターゲットデータセットに似た大きなデータセット上で機械学習モデルを事前トレーニングすることで、小さなデータセットの制限を克服できる。 しかし、データセット間の類似性はしばしばヒューリスティックに決定される。 本稿では,最適な輸送距離の階層的一般化に基づく病理組織学データセット間の距離の原理的概念を提案する。 本手法は, トレーニングを必要とせず, モデルタイプに依存せず, ティリングにより付与される病理組織学データセットに階層構造の多くを保存できる。 The Cancer Genome AtlasのH&E染色スライスに6種類の癌タイプを応用した。 本手法は, 癌型予測タスクにおいて, ベースライン距離よりも優れることを示す。 また, 腫瘍における移動性の難易度を, 正常な予測値と比較して, 最適移動距離が予測できることを示した。

Scarcity of labeled histopathology data limits the applicability of deep learning methods to under-profiled cancer types and labels. Transfer learning allows researchers to overcome the limitations of small datasets by pre-training machine learning models on larger datasets similar to the small target dataset. However, similarity between datasets is often determined heuristically. In this paper, we propose a principled notion of distance between histopathology datasets based on a hierarchical generalization of optimal transport distances. Our method does not require any training, is agnostic to model type, and preserves much of the hierarchical structure in histopathology datasets imposed by tiling. We apply our method to H&E stained slides from The Cancer Genome Atlas from six different cancer types. We show that our method outperforms a baseline distance in a cancer-type prediction task. Our results also show that our optimal transport distance predicts difficulty of transferability in a tumor vs.normal prediction setting.
翻訳日:2022-04-22 04:40:10 公開日:2022-04-20
# (参考訳) GroupNet:関係推論を用いた軌道予測のためのマルチスケールハイパーグラフニューラルネットワーク

GroupNet: Multiscale Hypergraph Neural Networks for Trajectory Prediction with Relational Reasoning ( http://arxiv.org/abs/2204.08770v2 )

ライセンス: CC BY 4.0
Chenxin Xu, Maosen Li, Zhenyang Ni, Ya Zhang, Siheng Chen(参考訳) 過去の軌道から複数のエージェント間の相互作用をデミステレーションすることは、正確かつ解釈可能な軌道予測の基礎となる。 しかし、以前の研究は限定的な関係推論を伴うペアワイズ相互作用のみを考慮していた。 関係推論のためのより包括的な相互作用モデリングを促進するために,多スケールハイパーグラフニューラルネットワークであるGroupNetを提案する。 インタラクションキャプチャの観点から,複数のグループサイズでペアワイドとグループワイドの両方のインタラクションをキャプチャする,トレーニング可能なマルチスケールハイパーグラフを提案する。 インタラクション表現学習の側面から、エンドツーエンドで学習できる3要素形式を提案し、相互作用強度やカテゴリを含む関係要因を明確に推論する。 CVAEに基づく予測システムと従来の最先端予測システムにGroupNetを適用し、関係推論による社会的に妥当な軌道の予測を行う。 関係推論の能力を検証するために, 集団行動, 理性相互作用強度, 相互作用カテゴリーを捉える能力を反映した合成物理学シミュレーションを行った。 予測の有効性を検証するため,NBA,SDD,ETH-UCYを含む3つの実世界の軌道予測データセットについて広範な実験を行った。 また,groupnet の追加により,従来の最先端予測システムの性能がさらに向上することを示す。

Demystifying the interactions among multiple agents from their past trajectories is fundamental to precise and interpretable trajectory prediction. However, previous works only consider pair-wise interactions with limited relational reasoning. To promote more comprehensive interaction modeling for relational reasoning, we propose GroupNet, a multiscale hypergraph neural network, which is novel in terms of both interaction capturing and representation learning. From the aspect of interaction capturing, we propose a trainable multiscale hypergraph to capture both pair-wise and group-wise interactions at multiple group sizes. From the aspect of interaction representation learning, we propose a three-element format that can be learnt end-to-end and explicitly reason some relational factors including the interaction strength and category. We apply GroupNet into both CVAE-based prediction system and previous state-of-the-art prediction systems for predicting socially plausible trajectories with relational reasoning. To validate the ability of relational reasoning, we experiment with synthetic physics simulations to reflect the ability to capture group behaviors, reason interaction strength and interaction category. To validate the effectiveness of prediction, we conduct extensive experiments on three real-world trajectory prediction datasets, including NBA, SDD and ETH-UCY; and we show that with GroupNet, the CVAE-based prediction system outperforms state-of-the-art methods. We also show that adding GroupNet will further improve the performance of previous state-of-the-art prediction systems.
翻訳日:2022-04-22 03:58:49 公開日:2022-04-20
# (参考訳) 多言語モデルにおけるジェンダー表現の分析

Analyzing Gender Representation in Multilingual Models ( http://arxiv.org/abs/2204.09168v1 )

ライセンス: CC BY 4.0
Hila Gonen, Shauli Ravfogel and Yoav Goldberg(参考訳) 多言語言語モデルにより、スクリプトや言語間での非自明な転送が可能となった。 本研究では,この伝達を可能にする内部表現の構造について検討する。 本稿では,ジェンダーの区別の表現を実践的なケーススタディとして重視し,ジェンダーの概念が言語間の共有部分空間にエンコードされる程度について検討する。 分析の結果、性表現は言語固有の要素とともに、言語間で共有されるいくつかの顕著な要素から構成されていることが示された。 言語に依存しない言語固有のコンポーネントの存在は、私たちが興味深い経験的観察を行うための説明を提供する: 性別分類は言語間でうまく移行するが、単一の言語で訓練されたジェンダー除去のための介入は、容易に他へ移行しない。

Multilingual language models were shown to allow for nontrivial transfer across scripts and languages. In this work, we study the structure of the internal representations that enable this transfer. We focus on the representation of gender distinctions as a practical case study, and examine the extent to which the gender concept is encoded in shared subspaces across different languages. Our analysis shows that gender representations consist of several prominent components that are shared across languages, alongside language-specific components. The existence of language-independent and language-specific components provides an explanation for an intriguing empirical observation we make: while gender classification transfers well across languages, interventions for gender removal, trained on a single language, do not transfer easily to others.
翻訳日:2022-04-22 00:06:47 公開日:2022-04-20
# (参考訳) 個人化アセット管理のための固有親和性を用いた強化学習

Reinforcement Learning with Intrinsic Affinity for Personalized Asset Management ( http://arxiv.org/abs/2204.09218v1 )

ライセンス: CC BY 4.0
Charl Maree and Christian W. Omlin(参考訳) 資産管理に強化学習(RL)を適用する一般的な目的は、利益の最大化である。 最適戦略を学ぶために用いられる極端な報酬関数は、通常、他のいかなる選好や制約も考慮しない。 我々は、戦略がグローバルな内在的親和性を持つこと、すなわち、異なる個人が時間とともに変化する可能性のある特定の資産を優先することを保証する正規化手法を開発した。 我々は、本質的な政策親和性を利用して、RLモデルを本質的に解釈可能にする。 我々は,特定のパーソナリティプロファイルに対する個々のポリシーを組織化し,高いリターンを達成するために,rlエージェントを訓練する方法を実証する。

The common purpose of applying reinforcement learning (RL) to asset management is the maximization of profit. The extrinsic reward function used to learn an optimal strategy typically does not take into account any other preferences or constraints. We have developed a regularization method that ensures that strategies have global intrinsic affinities, i.e., different personalities may have preferences for certain assets which may change over time. We capitalize on these intrinsic policy affinities to make our RL model inherently interpretable. We demonstrate how RL agents can be trained to orchestrate such individual policies for particular personality profiles and still achieve high returns.
翻訳日:2022-04-21 23:53:05 公開日:2022-04-20
# (参考訳) カーリングロボットの視覚システム:投球機とスキップ

Vision System of Curling Robots: Thrower and Skip ( http://arxiv.org/abs/2204.09221v1 )

ライセンス: CC BY 4.0
Seongwook Yoon, Gayoung Kim, Myungpyo Hong, and Sanghoon Sull(参考訳) 人間のカーリング選手と遊ぶことが期待できるカーリングロボットの視覚システムを構築した。 基本的に、投げ手とスキップロボットのための2種類の視覚システムを構築しました。 まず、投げ手ロボットはカーリングシートの所定の点に向かって走行し、石を放出する。 投球ロボットの視覚システムは,2次元カーリングシート上の3dofポーズを初期化し,その姿勢を更新してストーンリリースの決定を決定する。 第2に、投球ロボットの反対側にスキップロボットが立っており、ゲームの状態を監視して戦略的決定を行う。 スキップロボットの視覚システムは,カーリングシート上のすべての石を正確に認識する。 視点から見ると、多くの石が互いに混ざり合っているため、正確な石の位置を推定することは困難である。 したがって, 石柄の楕円形を認識し, パースペクティブ・ハフ変換を用いて, 石の正確な中間点を求める。 さらに, 投げられた石の追跡を行い, 氷の状態解析の軌跡を生成する。 最後に,2台の移動ロボットに視覚システムを実装し,一ターンでゲームプレイを成功させた。 具体的には、視覚システムは、それぞれの目的に対して異なる視点を持つ3つのカメラを含む。

We built a vision system of curling robot which can be expected to play with human curling player. Basically, we built two types of vision systems for thrower and skip robots, respectively. First, the thrower robot drives towards a given point of curling sheet to release a stone. Our vision system in the thrower robot initialize 3DoF pose on two dimensional curling sheet and updates the pose to decide for the decision of stone release. Second, the skip robot stands at the opposite side of the thrower robot and monitors the state of the game to make a strategic decision. Our vision system in the skip robot recognize every stones on the curling sheet precisely. Since the viewpoint is quite perspective, many stones are occluded by each others so it is challenging to estimate the accurate position of stone. Thus, we recognize the ellipses of stone handles outline to find the exact midpoint of the stones using perspective Hough transform. Furthermore, we perform tracking of a thrown stone to produce a trajectory for ice condition analysis. Finally, we implemented our vision systems on two mobile robots and successfully perform a single turn and even careful gameplay. Specifically, our vision system includes three cameras with different viewpoint for their respective purposes.
翻訳日:2022-04-21 23:40:54 公開日:2022-04-20
# (参考訳) K-LITE:外部知識を用いた伝達可能な視覚モデル学習

K-LITE: Learning Transferable Visual Models with External Knowledge ( http://arxiv.org/abs/2204.09222v1 )

ライセンス: CC BY 4.0
Sheng Shen, Chunyuan Li, Xiaowei Hu, Yujia Xie, Jianwei Yang, Pengchuan Zhang, Anna Rohrbach, Zhe Gan, Lijuan Wang, Lu Yuan, Ce Liu, Kurt Keutzer, Trevor Darrell, and Jianfeng Gao(参考訳) 最近のコンピュータビジョンシステムは、単純なオブジェクトのカテゴリ名から記述的なキャプションまで、自然言語の監督から訓練されている。 この自由形式の監督は、可能な限り多くの視覚概念をカバーするデータ収集に関する広範なヒューリスティックに基づいて、学習した視覚モデルの高い汎用性とユーザビリティを保証する。 あるいは、画像に関する外部知識で学ぶことは、より構造化された監視源を活用する、有望な方法である。 In this paper, we propose K-LITE (Knowledge-augmented Language-Image Training and Evaluation), a simple strategy to leverage external knowledge to build transferable visual systems: In training, it enriches entities in natural language with WordNet and Wiktionary knowledge, leading to an efficient and scalable approach to learning image representations that can understand both visual concepts and their knowledge; In evaluation, the natural language is also augmented with external knowledge and then used to reference learned visual concepts (or describe new ones) to enable zero-shot and few-shot transfer of the pre-trained models. 画像分類とオブジェクト検出という2つの重要なコンピュータビジョン問題に対するK-LITEの性能,20と13の既存データセットに対するベンチマークについて検討した。 提案した知識強化モデルにより,既存手法よりも伝達学習性能が大幅に向上した。

Recent state-of-the-art computer vision systems are trained from natural language supervision, ranging from simple object category names to descriptive captions. This free form of supervision ensures high generality and usability of the learned visual models, based on extensive heuristics on data collection to cover as many visual concepts as possible. Alternatively, learning with external knowledge about images is a promising way which leverages a much more structured source of supervision. In this paper, we propose K-LITE (Knowledge-augmented Language-Image Training and Evaluation), a simple strategy to leverage external knowledge to build transferable visual systems: In training, it enriches entities in natural language with WordNet and Wiktionary knowledge, leading to an efficient and scalable approach to learning image representations that can understand both visual concepts and their knowledge; In evaluation, the natural language is also augmented with external knowledge and then used to reference learned visual concepts (or describe new ones) to enable zero-shot and few-shot transfer of the pre-trained models. We study the performance of K-LITE on two important computer vision problems, image classification and object detection, benchmarking on 20 and 13 different existing datasets, respectively. The proposed knowledge-augmented models show significant improvement in transfer learning performance over existing methods.
翻訳日:2022-04-21 23:32:49 公開日:2022-04-20
# (参考訳) 視覚ベース測位とポーズ推定

Visual-based Positioning and Pose Estimation ( http://arxiv.org/abs/2204.09232v1 )

ライセンス: CC BY 4.0
Somnuk Phon-Amnuaisuk, Ken T. Murata, La-Or Kovavisaruch, Tiong-Hoo Lim, Praphan Pavarangkoon, Takamichi Mizuhara(参考訳) ディープラーニングとコンピュータビジョンの最近の進歩は、人間の位置推定や人間のポーズ推定のような高レベルなビジュアル分析タスクを調査する素晴らしい機会を提供する。 近年,人体位置推定と人体姿勢推定の性能は著しく改善されているが,完全ではなく,誤位置推定であり,映像フレーム間でのポーズ推定が期待できる。 これらのテクニックの一般的なパイプラインへの統合に関する研究は、これらのエラーから生じるノイズに対して堅牢である。 この論文は不足した研究を埋める。 視覚ベースの測位とポーズ推定タスクに適した2つの作業パイプラインを探索し,開発した。 提案されたパイプラインの分析はバドミントンゲームで行われた。 検出によるトラッキングの概念はうまく機能し, 近傍のフレームからの情報を用いた線形補間手法により位置とポーズの誤差を効果的に処理できることを示した。 その結果,視覚に基づく位置推定と姿勢推定は,空間的および時間的分解能のよい位置推定とポーズ推定を行うことができた。

Recent advances in deep learning and computer vision offer an excellent opportunity to investigate high-level visual analysis tasks such as human localization and human pose estimation. Although the performance of human localization and human pose estimation has significantly improved in recent reports, they are not perfect and erroneous localization and pose estimation can be expected among video frames. Studies on the integration of these techniques into a generic pipeline that is robust to noise introduced from those errors are still lacking. This paper fills the missing study. We explored and developed two working pipelines that suited the visual-based positioning and pose estimation tasks. Analyses of the proposed pipelines were conducted on a badminton game. We showed that the concept of tracking by detection could work well, and errors in position and pose could be effectively handled by a linear interpolation technique using information from nearby frames. The results showed that the Visual-based Positioning and Pose Estimation could deliver position and pose estimations with good spatial and temporal resolutions.
翻訳日:2022-04-21 23:11:56 公開日:2022-04-20
# (参考訳) オープン検索QAのための合成ターゲットドメインスーパービジョン

Synthetic Target Domain Supervision for Open Retrieval QA ( http://arxiv.org/abs/2204.09248v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Bhavani Iyer, Md Arafat Sultan, Rong Zhang, Avirup Sil, Vittorio Castelli, Radu Florian, Salim Roukos(参考訳) ニューラルパス検索はオープン検索質問応答における新しい,有望なアプローチである。 本研究では、COVID-19のような閉鎖的で特殊なターゲットドメイン上で、最先端(SOTA)オープンドメインニューラル検索モデルであるDense Passage Retriever(DPR)をストレステストし、この重要な現実の環境で標準BM25を遅れていることを確認する。 ドメインシフト下でdprをより堅牢にするために、テキストからテキストへのジェネレータを使用して、ラベルなしのターゲットドメインテキストから生成する合成トレーニング例を用いて、その微調整を探求する。 我々の実験では、この騒々しいが完全に自動化されたターゲットドメインの監視により、DPRはドメイン外の設定でBM25よりも大きなアドバンテージが得られる。 最後に、BM25のアンサンブルと改良されたDPRモデルにより、複数のドメイン外テストセット上でのオープン検索QAのためのSOTAをさらに推し進める。

Neural passage retrieval is a new and promising approach in open retrieval question answering. In this work, we stress-test the Dense Passage Retriever (DPR) -- a state-of-the-art (SOTA) open domain neural retrieval model -- on closed and specialized target domains such as COVID-19, and find that it lags behind standard BM25 in this important real-world setting. To make DPR more robust under domain shift, we explore its fine-tuning with synthetic training examples, which we generate from unlabeled target domain text using a text-to-text generator. In our experiments, this noisy but fully automated target domain supervision gives DPR a sizable advantage over BM25 in out-of-domain settings, making it a more viable model in practice. Finally, an ensemble of BM25 and our improved DPR model yields the best results, further pushing the SOTA for open retrieval QA on multiple out-of-domain test sets.
翻訳日:2022-04-21 23:04:21 公開日:2022-04-20
# (参考訳) DaLC: ニューラルネットワーク翻訳のためのドメイン適応学習曲線予測

DaLC: Domain Adaptation Learning Curve Prediction for Neural Machine Translation ( http://arxiv.org/abs/2204.09259v1 )

ライセンス: CC BY 4.0
Cheonbok Park, Hantae Kim, Ioan Calapodescu, Hyunchang Cho, and Vassilina Nikoulina(参考訳) ニューラルネットワーク翻訳(NMT)モデルのドメイン適応(DA)は、しばしば、ドメイン内の並列データのサンプルに基づいて新しいドメインに適応する訓練済みの一般NMTモデルに依存する。 並列データがないと、DAの潜在的な利点やそれが必要とする並列サンプルの量を見積もることはできない。 しかし、データセット作成にリソースを投資する前に、MT実践者が情報的な決定を下すのに役立つのは望ましい機能です。 本稿では,ソース言語におけるドメイン内単言語サンプルに基づき,da性能予測を行うドメイン適応学習曲線予測(dalc)モデルを提案する。 我々のモデルは、NMTエンコーダ表現と様々なインスタンスおよびコーパスレベルの特徴の組み合わせに依存している。 従来の研究で提案されたコーパスレベルフレームワークと比較して、インスタンスレベルが異なるドメインを区別できることを示す。 最後に,提案手法の限界を明らかにする結果の詳細な分析を行い,今後の研究の方向性を示す。

Domain Adaptation (DA) of Neural Machine Translation (NMT) model often relies on a pre-trained general NMT model which is adapted to the new domain on a sample of in-domain parallel data. Without parallel data, there is no way to estimate the potential benefit of DA, nor the amount of parallel samples it would require. It is however a desirable functionality that could help MT practitioners to make an informed decision before investing resources in dataset creation. We propose a Domain adaptation Learning Curve prediction (DaLC) model that predicts prospective DA performance based on in-domain monolingual samples in the source language. Our model relies on the NMT encoder representations combined with various instance and corpus-level features. We demonstrate that instance-level is better able to distinguish between different domains compared to corpus-level frameworks proposed in previous studies. Finally, we perform in-depth analyses of the results highlighting the limitations of our approach, and provide directions for future research.
翻訳日:2022-04-21 22:52:51 公開日:2022-04-20
# (参考訳) 確率的ニュートン法による超線形収束のヘシアン平均化

Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence ( http://arxiv.org/abs/2204.09266v1 )

ライセンス: CC BY 4.0
Sen Na, Micha{\l} Derezi\'nski, Michael W. Mahoney(参考訳) 確率ニュートン法による滑らかで強い対流対象関数の最小化を検討する。 各反復において、アルゴリズムはヘッセン行列の確率的推定へのオラクルアクセスを与える。 oracle のモデルには,newton や newton sketch といった,多くのタスクに対して確率的ヘッセン推定を効率的に構築可能な一般的なアルゴリズムが含まれている。 第二次情報を用いるにもかかわらず、これらの既存の手法は、反復の間に確率的ノイズが徐々にゼロに減少しない限り、超線形収束を示しない。 この制限をヘッセン平均化(Hessian averaging)によって解決する: 最新のヘッセン推定を使用する代わりに、我々のアルゴリズムは過去のすべての推定値の平均を維持する。 これにより、計算の爆発を避けながら確率ノイズを低減できる。 このスキームは、非漸近的なレートである$(\upsilon\sqrt{\log (t)/t}\,)^{t}$(ただし、$\upsilon$ はヘッセン神託における確率的雑音のレベルに比例する)で局所的な$q$-超線形収束を享受する。 この(一様平均化)アプローチの潜在的な欠点は、平均推定値が反復のグローバル位相、すなわち反復が局所近傍に収束する前にヘッセン情報を含むことである。 これにより、局所近傍が到達するまでの時間に、超線形収束を実質的に遅らせる歪みが生じる。 この欠点に対処するために、最近のヘッセン語により大きな重みを割り当てる重み付き平均化スキームについて検討し、超線型収束はより早く起こるが、わずかに遅くなる。 驚くべきことに、最適段階において局所収束に移行し、一様ヘッセン平均化とほぼ(対数係数まで)一致する超線形収束率を享受する普遍的な重み付き平均化スキームが存在する。

We consider minimizing a smooth and strongly convex objective function using a stochastic Newton method. At each iteration, the algorithm is given an oracle access to a stochastic estimate of the Hessian matrix. The oracle model includes popular algorithms such as the Subsampled Newton and Newton Sketch, which can efficiently construct stochastic Hessian estimates for many tasks. Despite using second-order information, these existing methods do not exhibit superlinear convergence, unless the stochastic noise is gradually reduced to zero during the iteration, which would lead to a computational blow-up in the per-iteration cost. We address this limitation with Hessian averaging: instead of using the most recent Hessian estimate, our algorithm maintains an average of all past estimates. This reduces the stochastic noise while avoiding the computational blow-up. We show that this scheme enjoys local $Q$-superlinear convergence with a non-asymptotic rate of $(\Upsilon\sqrt{\log (t)/t}\,)^{t}$, where $\Upsilon$ is proportional to the level of stochastic noise in the Hessian oracle. A potential drawback of this (uniform averaging) approach is that the averaged estimates contain Hessian information from the global phase of the iteration, i.e., before the iterates converge to a local neighborhood. This leads to a distortion that may substantially delay the superlinear convergence until long after the local neighborhood is reached. To address this drawback, we study a number of weighted averaging schemes that assign larger weights to recent Hessians, so that the superlinear convergence arises sooner, albeit with a slightly slower rate. Remarkably, we show that there exists a universal weighted averaging scheme that transitions to local convergence at an optimal stage, and still enjoys a superlinear convergence~rate nearly (up to a logarithmic factor) matching that of uniform Hessian averaging.
翻訳日:2022-04-21 22:35:00 公開日:2022-04-20
# (参考訳) 音響誘導セマンティックビデオ生成

Sound-Guided Semantic Video Generation ( http://arxiv.org/abs/2204.09273v1 )

ライセンス: CC BY 4.0
Seung Hyun Lee, Gyeongrok Oh, Wonmin Byeon, Jihyun Bae, Chanyoung Kim, Won Jeong Ryoo, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim(参考訳) StyleGANの最近の成功は、事前訓練されたStyleGAN潜伏空間がリアルなビデオ生成に有用であることを示している。 しかし、ビデオ内の生成された動きは、StyleGAN潜伏空間の方向と大きさを決定するのが難しいため、意味的に意味がない。 本稿では,マルチモーダル(音声テキスト)埋め込み空間を活用し,リアルな映像を生成する枠組みを提案する。 サウンドがシーンのテンポラリなコンテキストを提供すると、フレームワークは音と意味的に一致するビデオを生成することを学びます。 まず,我々の音響インバージョンモジュールは,音声を直接StyleGAN潜在空間にマッピングする。 次に、CLIPベースのマルチモーダル埋め込み空間を組み込んで、オーディオと視覚の関係をさらに深める。 最後に、提案するフレーム生成器は、対応する音と整合する潜在空間における軌跡を学習し、階層的に映像を生成する。 音声誘導映像生成タスク用に,新しい高分解能ランドスケープビデオデータセット (audio-visual pair) を提供する。 実験の結果,本モデルは映像品質の面で最先端の手法よりも優れていた。 さらに,本手法の有効性を検証するために,映像編集や映像編集などいくつかの応用例を示す。

The recent success in StyleGAN demonstrates that pre-trained StyleGAN latent space is useful for realistic video generation. However, the generated motion in the video is usually not semantically meaningful due to the difficulty of determining the direction and magnitude in the StyleGAN latent space. In this paper, we propose a framework to generate realistic videos by leveraging multimodal (sound-image-text) embedding space. As sound provides the temporal contexts of the scene, our framework learns to generate a video that is semantically consistent with sound. First, our sound inversion module maps the audio directly into the StyleGAN latent space. We then incorporate the CLIP-based multimodal embedding space to further provide the audio-visual relationships. Finally, the proposed frame generator learns to find the trajectory in the latent space which is coherent with the corresponding sound and generates a video in a hierarchical manner. We provide the new high-resolution landscape video dataset (audio-visual pair) for the sound-guided video generation task. The experiments show that our model outperforms the state-of-the-art methods in terms of video quality. We further show several applications including image and video editing to verify the effectiveness of our method.
翻訳日:2022-04-21 22:32:00 公開日:2022-04-20
# (参考訳) 分類と生成的アプローチによるアラビア語文の簡易化に向けて

Towards Arabic Sentence Simplification via Classification and Generative Approaches ( http://arxiv.org/abs/2204.09292v1 )

ライセンス: CC BY 4.0
Nouran Khallaf, Serge Sharoff(参考訳) 本稿では,現代標準アラビア語(MSA)文レベルの簡略化システムの構築を試みる。 文の単純化を2つのアプローチで実験した。 (i)事前学習された文脈化モデルであるアラビア語-bertと、ファストテキスト単語埋め込みのモデルを用いる語彙単純化パイプラインに至る分類アプローチ (II)多言語テキスト・テキスト転送変換器mT5を適用したSeq2Seq手法 我々は、国際的に賞賛されたアラビア語の小説「Saaq al-Bambuu」の原文と簡略な文を合わせることで、トレーニングコーパスを開発した。 BERTScore評価尺度を用いて,生成した単純文と目的単純文とを比較し,これらの手法の有効性を評価する。 mT5モデルによって生成される単純な文は、BERTScoreを介してP 0.72、R 0.68、F-1 0.70を得る一方、アラビア語-BERTとfastTextを組み合わせてP 0.97、R 0.97、F-1 0.97を得る。 また,これらの実験について手動による誤り解析を行った。 \url{https://github.com/Nouran-Khallaf/Lexical_Simplification}

This paper presents an attempt to build a Modern Standard Arabic (MSA) sentence-level simplification system. We experimented with sentence simplification using two approaches: (i) a classification approach leading to lexical simplification pipelines which use Arabic-BERT, a pre-trained contextualised model, as well as a model of fastText word embeddings; and (ii) a generative approach, a Seq2Seq technique by applying a multilingual Text-to-Text Transfer Transformer mT5. We developed our training corpus by aligning the original and simplified sentences from the internationally acclaimed Arabic novel "Saaq al-Bambuu". We evaluate effectiveness of these methods by comparing the generated simple sentences to the target simple sentences using the BERTScore evaluation metric. The simple sentences produced by the mT5 model achieve P 0.72, R 0.68 and F-1 0.70 via BERTScore, while, combining Arabic-BERT and fastText achieves P 0.97, R 0.97 and F-1 0.97. In addition, we report a manual error analysis for these experiments. \url{https://github.com/Nouran-Khallaf/Lexical_Simplification}
翻訳日:2022-04-21 22:17:17 公開日:2022-04-20
# (参考訳) ハイパースペクトル画像分類のための3段階スペクトル空間法

A 3-stage Spectral-spatial Method for Hyperspectral Image Classification ( http://arxiv.org/abs/2204.09294v1 )

ライセンス: CC BY 4.0
Raymond H. Chan, Ruoning Li(参考訳) ハイパースペクトル画像は、航空機や衛星によって捉えられた数百の異なる波長のスペクトル帯域を持つことが多い。 ハイパースペクトル画像のスペクトル及び空間分解能の増大により,詳細な画素の分類が可能となる。 本研究では,ハイパースペクトル画像中の画素の分類に空間情報とスペクトル情報の両方を利用する新しいフレームワークを提案する。 方法は3段階からなる。 第1段階では、前処理段階であるネストスライディングウィンドウアルゴリズムを使用して、隣り合うピクセルの一貫性を高めることにより元のデータを再構築し、次に主成分分析を使用してデータの次元を縮小する。 第2段階では、サポートベクターマシンを訓練し、画像からのスペクトル情報を用いて各クラスの画素毎の確率マップを推定する。 最後に、画像中の空間的接続性を検証することによってクラス確率ベクトルを滑らかにするために、平滑化全変動モデルを適用する。 本手法は,クラス毎に10から50のトレーニングラベルを持つ6つのベンチマークハイパースペクトルデータセットにおいて,3つの最先端アルゴリズムに対して優れていることを示す。 その結果,本手法は全体の性能を精度良く評価できることがわかった。 特に,ラベル付き画素数が減少するにつれて精度が上昇するので,学習セットが小さい問題に適用する方が有利である。 したがって、専門家のアノテーションは高価で収集が難しいことが多いため、非常に実践的な意味を持つ。

Hyperspectral images often have hundreds of spectral bands of different wavelengths captured by aircraft or satellites that record land coverage. Identifying detailed classes of pixels becomes feasible due to the enhancement in spectral and spatial resolution of hyperspectral images. In this work, we propose a novel framework that utilizes both spatial and spectral information for classifying pixels in hyperspectral images. The method consists of three stages. In the first stage, the pre-processing stage, Nested Sliding Window algorithm is used to reconstruct the original data by {enhancing the consistency of neighboring pixels} and then Principal Component Analysis is used to reduce the dimension of data. In the second stage, Support Vector Machines are trained to estimate the pixel-wise probability map of each class using the spectral information from the images. Finally, a smoothed total variation model is applied to smooth the class probability vectors by {ensuring spatial connectivity} in the images. We demonstrate the superiority of our method against three state-of-the-art algorithms on six benchmark hyperspectral data sets with 10 to 50 training labels for each class. The results show that our method gives the overall best performance in accuracy. Especially, our gain in accuracy increases when the number of labeled pixels decreases and therefore our method is more advantageous to be applied to problems with small training set. Hence it is of great practical significance since expert annotations are often expensive and difficult to collect.
翻訳日:2022-04-21 21:58:01 公開日:2022-04-20
# (参考訳) MDB法を用いた非線形フィルタリング領域の画像復元

Image Restoration in Non-Linear Filtering Domain using MDB approach ( http://arxiv.org/abs/2204.09296v1 )

ライセンス: CC BY 4.0
S. K. Satpathy, S. Panda, K. K. Nagwanshi, and C. Ardil(参考訳) 本稿では,画像復元のための非線形最小検出器ベースフィルタ(MDB)に基づく新しい手法を提案する。 画像強調の目的は、破損した画像から真の画像を再構成することである。 画像取得のプロセスは、しばしば劣化し、デジタル化された画像の品質は、元の画像よりも劣る。 画像劣化は、元の画像に異なる種類のノイズが加えられることによる可能性がある。 画像ノイズは多くのタイプでモデル化でき、インパルスノイズはその1つである。 インパルスノイズは、近傍と一致しないグレーの値を持つ画素を生成する。 光と暗の両方のスプリンクラー、または画像中の光点のみのスプリンクラーとして現れる。 フィルタリングは、画像を強化する技術である。 線形フィルタ(英: linear filter)は、出力画素の値が近傍値の線形結合であるフィルタリングであり、画像にぼやけが生じる可能性がある。 したがって、線形でない様々な平滑化技術が開発されている。 中央フィルターは最も人気のある非線形フィルタの1つである。 小さな近所を考えると、非常に効率的だが大きな窓があり、高騒音の場合、画像がよりぼやけてしまう。 中央重み付き平均(cwm)フィルタは、中央値フィルタよりも優れた平均性能を得た。 しかし、元の画素は劣化し、ノイズの低減は高ノイズ条件下でかなり大きい。 したがって、この技法は画像に対する影響もぼやけている。 提案手法の優位性を示すため,提案手法を標準方式とともに模擬し,様々な性能改善策を比較した。

This paper proposes a new technique based on a non-linear Minmax Detector Based (MDB) filter for image restoration. The aim of image enhancement is to reconstruct the true image from the corrupted image. The process of image acquisition frequently leads to degradation and the quality of the digitized image becomes inferior to the original image. Image degradation can be due to the addition of different types of noise in the original image. Image noise can be modelled of many types and impulse noise is one of them. Impulse noise generates pixels with gray value not consistent with their local neighbourhood. It appears as a sprinkle of both light and dark or only light spots in the image. Filtering is a technique for enhancing the image. Linear filter is the filtering in which the value of an output pixel is a linear combination of neighborhood values, which can produce blur in the image. Thus a variety of smoothing techniques have been developed that are non linear. Median filter is the one of the most popular non-linear filter. When considering a small neighborhood it is highly efficient but for large window and in case of high noise it gives rise to more blurring to image. The Centre Weighted Mean (CWM) filter has got a better average performance over the median filter. However the original pixel corrupted and noise reduction is substantial under high noise condition. Hence this technique has also blurring affect on the image. To illustrate the superiority of the proposed approach, the proposed new scheme has been simulated along with the standard ones and various restored performance measures have been compared.
翻訳日:2022-04-21 21:38:43 公開日:2022-04-20
# (参考訳) 適応型非線形フィルタリングによる画像復元

Adaptive Non-linear Filtering Technique for Image Restoration ( http://arxiv.org/abs/2204.09302v1 )

ライセンス: CC BY 4.0
S. K. Satpathy, S. Panda, K. K. Nagwanshi, S. K. Nayak, and C. Ardil(参考訳) 処理された画像からノイズを取り除くことは非常に重要です。 画像の重要な情報が保存されるように、ノイズを除去する必要がある。 本稿では,画像中のバンドライン,ドロップライン,マーク,バンドロス,インパルスの除去のための決定に基づく非線形アルゴリズムを提案する。 このアルゴリズムは、破損画素の検出と、破損画素を置き換えるための新しい画素の評価という2つの同時操作を実行する。 これらのアーティファクトの削除は、エッジや詳細を損なうことなく達成される。 しかし、制限されたウィンドウサイズは、ノイズが過大な場合には中央値の操作を減らし、提案アルゴリズムは自動的に平均フィルタリングに切り替える。 このアルゴリズムの性能は平均平方誤差(MSE)、ピーク信号対雑音比(PSNR)、信号対雑音比の改善(SNRI)、ノイズ減衰(PONA)、スポイリング画素(POSP)の順に解析される。 これは、既に使われている標準アルゴリズムと比較し、提案アルゴリズムの性能を改善した。 提案アルゴリズムの利点は、異なるアーティファクトの除去に必要な複数の独立したアルゴリズムを1つのアルゴリズムで置き換えることである。

Removing noise from the any processed images is very important. Noise should be removed in such a way that important information of image should be preserved. A decisionbased nonlinear algorithm for elimination of band lines, drop lines, mark, band lost and impulses in images is presented in this paper. The algorithm performs two simultaneous operations, namely, detection of corrupted pixels and evaluation of new pixels for replacing the corrupted pixels. Removal of these artifacts is achieved without damaging edges and details. However, the restricted window size renders median operation less effective whenever noise is excessive in that case the proposed algorithm automatically switches to mean filtering. The performance of the algorithm is analyzed in terms of Mean Square Error [MSE], Peak-Signal-to-Noise Ratio [PSNR], Signal-to-Noise Ratio Improved [SNRI], Percentage Of Noise Attenuated [PONA], and Percentage Of Spoiled Pixels [POSP]. This is compared with standard algorithms already in use and improved performance of the proposed algorithm is presented. The advantage of the proposed algorithm is that a single algorithm can replace several independent algorithms which are required for removal of different artifacts.
翻訳日:2022-04-21 21:31:40 公開日:2022-04-20
# (参考訳) メモリ制約付きポリシー最適化

Memory-Constrained Policy Optimization ( http://arxiv.org/abs/2204.09315v1 )

ライセンス: CC BY 4.0
Hung Le, Thommen Karimpanal George, Majid Abdolshah, Dung Nguyen, Kien Do, Sunil Gupta, Svetha Venkatesh(参考訳) 本稿では、2つの信頼領域を用いてポリシー更新を規制するポリシー勾配強化学習の新しい制約付き最適化手法を提案する。 先行研究による第1の信頼領域としての1つの旧方針の近接性に加えて,過去の幅広い政策を表わす別の仮想政策を構築することにより,第2の信頼領域を形成することを提案する。 そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。 より重要なことは、過去のポリシーのメモリバッファから仮想ポリシーを自動的に構築するメカニズムを提案し、最適化プロセス中に適切な信頼領域を動的に選択する新機能を提供する。 提案手法はmpo(memory-constrained policy optimization)と呼ばれ,ロボットのロコモーション制御,スパース報酬によるナビゲーション,atariゲームなどの多様な環境について検討し,近年のオンポリシー制約ポリシー勾配法と一貫して競合性能を示す。

We introduce a new constrained optimization method for policy gradient reinforcement learning, which uses two trust regions to regulate each policy update. In addition to using the proximity of one single old policy as the first trust region as done by prior works, we propose to form a second trust region through the construction of another virtual policy that represents a wide range of past policies. We then enforce the new policy to stay closer to the virtual policy, which is beneficial in case the old policy performs badly. More importantly, we propose a mechanism to automatically build the virtual policy from a memory buffer of past policies, providing a new capability for dynamically selecting appropriate trust regions during the optimization process. Our proposed method, dubbed as Memory-Constrained Policy Optimization (MCPO), is examined on a diverse suite of environments including robotic locomotion control, navigation with sparse rewards and Atari games, consistently demonstrating competitive performance against recent on-policy constrained policy gradient methods.
翻訳日:2022-04-21 21:19:35 公開日:2022-04-20
# (参考訳) SpiderNet: トレインフリーメトリックによるハイブリッド微分可能進化型アーキテクチャ検索

SpiderNet: Hybrid Differentiable-Evolutionary Architecture Search via Train-Free Metrics ( http://arxiv.org/abs/2204.09320v1 )

ライセンス: CC BY 4.0
Rob Geada, Andrew Stephen McGough(参考訳) ニューラルネットワーク探索(NAS)アルゴリズムは、手動ニューラルネットワーク設計の負担を取り除くことを目的としており、様々な既知の問題に対して優れたモデルを設計できることが示されている。 しかし、これらのアルゴリズムは、発見可能なネットワークの種類を制限するユーザー設定またはハードコード決定の形で、様々な設計パラメータを必要とする。 つまり、NASアルゴリズムはモデル設計チューニングを排除せず、単にそのチューニングを適用すべき場所の負担をシフトするだけである。 本稿では,最先端ネットワークを迅速かつ効率的に生成するハイブリッド微分可能・ハードウェア対応アルゴリズムであるSpiderNetを提案する。 より重要なことに、spidernetは最小構成のnasアルゴリズムの概念実証であり、他のアルゴリズムで見られる設計選択の大部分はspidernetの動的進化する検索空間に組み込まれ、ユーザ選択の数を2つに最小化している。 SpiderNetは最先端技術と高い競争力を持つモデルを生成し、精度、実行時、メモリサイズ、パラメータ数においてランダム検索を上回っている。

Neural Architecture Search (NAS) algorithms are intended to remove the burden of manual neural network design, and have shown to be capable of designing excellent models for a variety of well-known problems. However, these algorithms require a variety of design parameters in the form of user configuration or hard-coded decisions which limit the variety of networks that can be discovered. This means that NAS algorithms do not eliminate model design tuning, they instead merely shift the burden of where that tuning needs to be applied. In this paper, we present SpiderNet, a hybrid differentiable-evolutionary and hardware-aware algorithm that rapidly and efficiently produces state-of-the-art networks. More importantly, SpiderNet is a proof-of-concept of a minimally-configured NAS algorithm; the majority of design choices seen in other algorithms are incorporated into SpiderNet's dynamically-evolving search space, minimizing the number of user choices to just two: reduction cell count and initial channel count. SpiderNet produces models highly-competitive with the state-of-the-art, and outperforms random search in accuracy, runtime, memory size, and parameter count.
翻訳日:2022-04-21 20:53:14 公開日:2022-04-20
# (参考訳) 多施設クリティカルケア研究における連合学習--eicuデータベースを用いた体系的ケーススタディ

Federated Learning in Multi-Center Critical Care Research: A Systematic Case Study using the eICU Database ( http://arxiv.org/abs/2204.09328v1 )

ライセンス: CC BY 4.0
Arash Mehrjou, Ashkan Soleymani, Annika Buchholz, J\"urgen Hetzel, Patrick Schwab, Stefan Bauer(参考訳) フェデレーション学習 (federated learning, fl) は、データを交換することなく異なる単位でモデルを訓練する方法として提案されている。 これは、大きなデータセットが利用可能だが患者のプライバシーを確保するために共有できない医療分野において、大きな機会を提供する。 FLが利用可能なeICUデータセットに与える影響を系統的に検討し,各ICU滞在の生存率を予測する。 我々は,flの主な実用的アルゴリズムとしてフェデレート平均化(federated averaging)を採用し,クライアントのサイズが著しく変化することを考慮し,その性能変化を示す。 多くの環境では、多くのローカルトレーニングエポックが、通信コストを削減しつつ、性能を改善していることがわかった。 さらに,各連携更新ラウンドに参加する病院の数が少なかった場合の状況について概説する。 患者数が少ない病院が多い場合、バッチサイズを小さくすることでオーバーフィッティングの効果を回避できる。 本研究は,臨床データセット上でのflなどの分散アルゴリズムの実行に適した設定の同定に寄与する。

Federated learning (FL) has been proposed as a method to train a model on different units without exchanging data. This offers great opportunities in the healthcare sector, where large datasets are available but cannot be shared to ensure patient privacy. We systematically investigate the effectiveness of FL on the publicly available eICU dataset for predicting the survival of each ICU stay. We employ Federated Averaging as the main practical algorithm for FL and show how its performance changes by altering three key hyper-parameters, taking into account that clients can significantly vary in size. We find that in many settings, a large number of local training epochs improves the performance while at the same time reducing communication costs. Furthermore, we outline in which settings it is possible to have only a low number of hospitals participating in each federated update round. When many hospitals with low patient counts are involved, the effect of overfitting can be avoided by decreasing the batchsize. This study thus contributes toward identifying suitable settings for running distributed algorithms such as FL on clinical datasets.
翻訳日:2022-04-21 20:50:11 公開日:2022-04-20
# (参考訳) 心臓セグメンテーションのための教師なしドメイン適応:構造的相互情報の最大化を目指して

Unsupervised Domain Adaptation for Cardiac Segmentation: Towards Structure Mutual Information Maximization ( http://arxiv.org/abs/2204.09334v1 )

ライセンス: CC BY 4.0
Changjie Lu, Shen Zheng, Gaurav Gupta(参考訳) 教師なしのドメイン適応アプローチは、最近様々な医療画像分割タスクに成功している。 報告された作業は、ドメイン固有の特徴を調整し、ドメイン固有の相違を最小限にすることで、ドメインシフト問題に対処することが多い。 この戦略は、特定のドメインと異なるドメインの違いが小さい場合にうまく機能します。 しかし、様々な画像モダリティに対するこれらのモデルの一般化能力は依然として大きな課題である。 本稿では,コンパクトな損失関数を下限とする心臓セグメンテーションのための教師なしドメイン適応フレームワークであるUDA-VAE++を紹介する。 この新たな下界を推定するために,グローバル推定器,局所推定器,事前情報マッチング推定器を備えた構造的相互情報推定(SMIE)ブロックを開発し,再構成タスクとセグメント化タスク間の相互情報を最大化する。 具体的には,低分解能の潜在空間から高分解能の潜在空間への情報フローと分散補正を可能にする新しい逐次再パラメータ化スキームを設計する。 ベンチマーク心セグメンテーションデータセットに関する包括的実験により,本モデルが前例より質的,定量的に優れることが示された。 コードはhttps://github.com/LOUEY233/Toward-Mutual-Information}{https://github.com/LOUEY233/Toward-Mutual-Informationで公開されている。

Unsupervised domain adaptation approaches have recently succeeded in various medical image segmentation tasks. The reported works often tackle the domain shift problem by aligning the domain-invariant features and minimizing the domain-specific discrepancies. That strategy works well when the difference between a specific domain and between different domains is slight. However, the generalization ability of these models on diverse imaging modalities remains a significant challenge. This paper introduces UDA-VAE++, an unsupervised domain adaptation framework for cardiac segmentation with a compact loss function lower bound. To estimate this new lower bound, we develop a novel Structure Mutual Information Estimation (SMIE) block with a global estimator, a local estimator, and a prior information matching estimator to maximize the mutual information between the reconstruction and segmentation tasks. Specifically, we design a novel sequential reparameterization scheme that enables information flow and variance correction from the low-resolution latent space to the high-resolution latent space. Comprehensive experiments on benchmark cardiac segmentation datasets demonstrate that our model outperforms previous state-of-the-art qualitatively and quantitatively. The code is available at https://github.com/LOUEY233/Toward-Mutual-Information}{https://github.com/LOUEY233/Toward-Mutual-Information
翻訳日:2022-04-21 20:40:52 公開日:2022-04-20
# (参考訳) OutCast:キャストシャドウ付き屋外シングルイメージライティング

OutCast: Outdoor Single-image Relighting with Cast Shadows ( http://arxiv.org/abs/2204.09341v1 )

ライセンス: CC BY 4.0
David Griffiths, Tobias Ritschel, Julien Philip(参考訳) 本稿では,屋外画像のリライト手法を提案する。 本手法は主に1枚の画像から任意の新しい照明方向におけるキャストシャドウの予測と、日光や雲の陰影や大域的な影響を考慮に入れたものである。 この問題に対する以前の解決策は、例えば、シーンの多くの画像を必要とするマルチビューステレオを使用するような、オクルダー幾何学の再構成に依存している。 代わりに、この研究では、ノイズの多い単眼深度マップを幾何の源として利用する。 これはいくつかの照明効果に良いガイドとなるが、その結果の深度マップの品質は影を直接照射するには不十分である。 そこで本研究では,近似深度マップを奥行き3次元表現に変換し,学習トラバーサルを用いて咬合問合せに融合する学習画像空間レイマーチング層を提案する。 提案手法は,1つの画像のみを入力として,初めて最先端のリライト結果を実現する。 追加資料については、プロジェクトのページを参照してください。

We propose a relighting method for outdoor images. Our method mainly focuses on predicting cast shadows in arbitrary novel lighting directions from a single image while also accounting for shading and global effects such the sun light color and clouds. Previous solutions for this problem rely on reconstructing occluder geometry, e.g. using multi-view stereo, which requires many images of the scene. Instead, in this work we make use of a noisy off-the-shelf single-image depth map estimation as a source of geometry. Whilst this can be a good guide for some lighting effects, the resulting depth map quality is insufficient for directly ray-tracing the shadows. Addressing this, we propose a learned image space ray-marching layer that converts the approximate depth map into a deep 3D representation that is fused into occlusion queries using a learned traversal. Our proposed method achieves, for the first time, state-of-the-art relighting results, with only a single image as input. For supplementary material visit our project page at: https://dgriffiths.uk/outcast.
翻訳日:2022-04-21 20:39:42 公開日:2022-04-20
# (参考訳) 個人識別のためのヒト足跡と歩行のサイバー法医学的レビュー

Cyber-Forensic Review of Human Footprint and Gait for Personal Identification ( http://arxiv.org/abs/2204.09344v1 )

ライセンス: CC BY 4.0
Kapil Kumar Nagwanshi(参考訳) 人間の足跡は他の人間とは一致しない独自の尾根を持っているため、出生証明書、インド生体認証システムAADHARカード、運転免許証、PANカード、パスポートなどの異なるID文書で使用することができる。 犯罪現場では、被疑者が履物や裸足の指紋を歩き回って残さなければならない場合が多いため、犯人の特定から足跡を回収することが極めて重要である。 足跡に基づく生体認証は、個人識別のためのかなり新しい技術である。 指紋、網膜、虹彩、顔認識は、人物の出席記録に最も有用な方法である。 今回は世界が世界のテロ問題に直面している。 テロリストを市民と同じように生活しているため、識別することは困難である。 彼らのソフトターゲットには、防衛、シリコン、ナノテクノロジー製造ユニット、薬局など、特別な分野の産業が含まれる。 宗教的な装いをするので、市場においても寺院などの聖地がターゲットとなっている。 これらは、足跡を素早く得ることができる場所です。 歩行自体が容疑者の行動を予測するのに十分である。 本研究は,個人識別の代替として足跡と歩行の有用性を同定することを目的としている。

The human footprint is having a unique set of ridges unmatched by any other human being, and therefore it can be used in different identity documents for example birth certificate, Indian biometric identification system AADHAR card, driving license, PAN card, and passport. There are many instances of the crime scene where an accused must walk around and left the footwear impressions as well as barefoot prints and therefore, it is very crucial to recovering the footprints from identifying the criminals. Footprint-based biometric is a considerably newer technique for personal identification. Fingerprints, retina, iris and face recognition are the methods most useful for attendance record of the person. This time the world is facing the problem of global terrorism. It is challenging to identify the terrorist because they are living as regular as the citizens do. Their soft target includes the industries of special interests such as defence, silicon and nanotechnology chip manufacturing units, pharmacy sectors. They pretend themselves as religious persons, so temples and other holy places, even in markets is in their targets. These are the places where one can obtain their footprints quickly. The gait itself is sufficient to predict the behaviour of the suspects. The present research is driven to identify the usefulness of footprint and gait as an alternative to personal identification.
翻訳日:2022-04-21 20:12:01 公開日:2022-04-20
# (参考訳) レジストのないオンラインキャッシング - 推奨による最適学習

Online Caching with no Regret: Optimistic Learning via Recommendations ( http://arxiv.org/abs/2204.09345v1 )

ライセンス: CC BY 4.0
Naram Mhaisen and George Iosifidis and Douglas Leith(参考訳) 効果的なオンラインキャッシュポリシーの設計は、コンテンツ配信ネットワーク、オンラインソーシャルネットワーク、エッジコンピューティングサービスなどにおいて、ますます重要な問題となっている。 本稿では,楽観的なオンライン学習のレンズを通してこの問題に取り組むための新しいアルゴリズムツールボックスを提案する。 我々は、ファイル要求の予測を含むFollow-the-Regularized-Leader (FTRL) フレームワークを構築し、時間平均予算制約を考慮した固定サイズキャッシュや弾性リースキャッシュを備えた二部ネットワークのためのオンラインキャッシュアルゴリズムを設計する。 この予測は、ユーザの視聴行動に影響を与えるコンテンツレコメンデーションシステムによって提供され、将来の要求に対するキャッシングネットワークの不確実性が自然に低減される。 また、多くの人が利用できる場合に最適な要求予測器を学習し利用するためにフレームワークを拡張します。 提案した「最適」学習キャッシュポリシは、完全な予測に対してゼロ以下の性能損失(regret)を達成でき、任意のバッド予測であっても予測を使用しないポリシーに対して最も達成可能なサブ線形後悔境界である$O(\sqrt T)$を維持することができる。 提案アルゴリズムの性能は,詳細なトレース駆動数値テストを用いて評価する。

The design of effective online caching policies is an increasingly important problem for content distribution networks, online social networks and edge computing services, among other areas. This paper proposes a new algorithmic toolbox for tackling this problem through the lens of optimistic online learning. We build upon the Follow-the-Regularized-Leader (FTRL) framework, which is developed further here to include predictions for the file requests, and we design online caching algorithms for bipartite networks with fixed-size caches or elastic leased caches subject to time-average budget constraints. The predictions are provided by a content recommendation system that influences the users viewing activity and hence can naturally reduce the caching network's uncertainty about future requests. We also extend the framework to learn and utilize the best request predictor in cases where many are available. We prove that the proposed {optimistic} learning caching policies can achieve sub-zero performance loss (regret) for perfect predictions, and maintain the sub-linear regret bound $O(\sqrt T)$, which is the best achievable bound for policies that do not use predictions, even for arbitrary-bad predictions. The performance of the proposed algorithms is evaluated with detailed trace-driven numerical tests.
翻訳日:2022-04-21 19:38:40 公開日:2022-04-20
# (参考訳) ジェネレーティブかコントラストか? 文表現学習のためのフレーズ再構成

Generative or Contrastive? Phrase Reconstruction for Better Sentence Representation Learning ( http://arxiv.org/abs/2204.09358v1 )

ライセンス: CC BY 4.0
Bohong Wu, Hai Zhao(参考訳) 驚くべき文脈化されたトークンレベルの表現を提供するが、現在の事前訓練された言語モデルは、自己教師付き事前訓練中に文レベルの表現を取得することにはあまり注意を払わない。 自己教師付き学習が生成的および対比的という2つのサブカテゴリに区別できるなら、既存の研究は、文表現学習は、生成的方法ではなく、対比的方法の恩恵を受ける可能性があることを示している。 しかし、コントラスト学習は共通トークンレベルの自己教師付き学習と相性が良く、下流のセマンティック検索タスクにおいて優れた性能を保証できない。 そこで,このような明らかな不便を緩和するために,句の再構築に基づく新しい生成的自己教師付き学習目標を提案する。 経験的研究により、我々の生成学習は十分な文表現をもたらし、対照的な学習に匹敵する文文類似性(STS)タスクで性能を達成する可能性が示唆された。 さらに, 教師なし設定では, 下流セマンティック検索タスクのベンチマークにおいて, 従来のSimCSEよりも優れていた。

Though offering amazing contextualized token-level representations, current pre-trained language models actually take less attention on acquiring sentence-level representation during its self-supervised pre-training. If self-supervised learning can be distinguished into two subcategories, generative and contrastive, then most existing studies show that sentence representation learning may more benefit from the contrastive methods but not the generative methods. However, contrastive learning cannot be well compatible with the common token-level generative self-supervised learning, and does not guarantee good performance on downstream semantic retrieval tasks. Thus, to alleviate such obvious inconveniences, we instead propose a novel generative self-supervised learning objective based on phrase reconstruction. Empirical studies show that our generative learning may yield powerful enough sentence representation and achieve performance in Sentence Textual Similarity (STS) tasks on par with contrastive learning. Further, in terms of unsupervised setting, our generative method outperforms previous state-of-the-art SimCSE on the benchmark of downstream semantic retrieval tasks.
翻訳日:2022-04-21 19:14:30 公開日:2022-04-20
# (参考訳) 不均質な時間・経年データのための変分オートエンコーダ

A Variational Autoencoder for Heterogeneous Temporal and Longitudinal Data ( http://arxiv.org/abs/2204.09369v1 )

ライセンス: CC BY 4.0
Mine \"O\u{g}retir, Siddharth Ramchandran, Dimitrios Papatheodorou and Harri L\"ahdesm\"aki(参考訳) 変分オートエンコーダ(VAE)は、高次元データセットを低次元の潜時表現を学習して解析するために使われる、一般的な潜時変数モデルである。 生成モデルと推論ネットワークを同時に学習し、近似後部推論を行う。 近年,経時的および経時的データを処理可能なVAEの拡張は,医療,行動モデリング,予測保守に応用されている。 しかし、これらの拡張は不均質なデータ(すなわち、連続的および離散的な属性からなるデータ)を考慮せず、多くの実生活アプリケーションで一般的である。 本研究では,既存の時空間および時空間VAEをヘテロジニアスデータに拡張するヘテロジニアス縦型VAE(HL-VAE)を提案する。 HL-VAEは高次元データセットに対する効率的な推論を提供し、欠落した観測を考慮しつつ、連続、カウント、カテゴリー、順序データのための可能性モデルを含む。 本モデルの有効性をシミュレーションおよび臨床データセットを用いて実証し,提案モデルが欠落した値インプテーションと予測精度で競合性能を達成することを示す。

The variational autoencoder (VAE) is a popular deep latent variable model used to analyse high-dimensional datasets by learning a low-dimensional latent representation of the data. It simultaneously learns a generative model and an inference network to perform approximate posterior inference. Recently proposed extensions to VAEs that can handle temporal and longitudinal data have applications in healthcare, behavioural modelling, and predictive maintenance. However, these extensions do not account for heterogeneous data (i.e., data comprising of continuous and discrete attributes), which is common in many real-life applications. In this work, we propose the heterogeneous longitudinal VAE (HL-VAE) that extends the existing temporal and longitudinal VAEs to heterogeneous data. HL-VAE provides efficient inference for high-dimensional datasets and includes likelihood models for continuous, count, categorical, and ordinal data while accounting for missing observations. We demonstrate our model's efficacy through simulated as well as clinical datasets, and show that our proposed model achieves competitive performance in missing value imputation and predictive accuracy.
翻訳日:2022-04-21 19:02:06 公開日:2022-04-20
# (参考訳) 複合音節オンセットの調音合成のための探索手法

Exploration strategies for articulatory synthesis of complex syllable onsets ( http://arxiv.org/abs/2204.09381v1 )

ライセンス: CC BY 4.0
Daniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul K. Krug, Peter Birkholz, Yi Xu(参考訳) 高品質な調音音声合成は、音声科学や技術に多くの応用がある。 しかし,言語仕様から調音ジェスチャーへの適切なマッピングの開発は困難であり,時間を要する。 本稿では,これらのマッピングを手作業による介入なしに学習するための第一歩として,最適化に基づくフレームワークを構築する。 複雑なオンセットを持つ音節の生成を実証し,コーアティキュレーションに着目して調音ジェスチャーの質について議論する。

High-quality articulatory speech synthesis has many potential applications in speech science and technology. However, developing appropriate mappings from linguistic specification to articulatory gestures is difficult and time consuming. In this paper we construct an optimisation-based framework as a first step towards learning these mappings without manual intervention. We demonstrate the production of syllables with complex onsets and discuss the quality of the articulatory gestures with reference to coarticulation.
翻訳日:2022-04-21 18:26:57 公開日:2022-04-20
# (参考訳) 多時間センチネル-1データによる洪水検出のための注意的デュアルストリーム・シームズU-net

Attentive Dual Stream Siamese U-net for Flood Detection on Multi-temporal Sentinel-1 Data ( http://arxiv.org/abs/2204.09387v1 )

ライセンス: CC BY 4.0
Ritu Yadav, Andrea Nascetti, Yifang Ban(参考訳) 気候や土地利用の変化により、近年は洪水などの自然災害が増加している。 タイムリーで信頼性の高い洪水検出とマッピングは、緊急対応と災害管理に役立つ。 本研究では,二時間sar取得を用いた洪水検知ネットワークを提案する。 提案するセグメンテーションネットワークは,2つのシームズエンコーダを用いたエンコーダ・デコーダアーキテクチャを備え,プレフロッド画像とポストフロッド画像の符号化を行う。 ネットワークの特徴地図はアテンションブロックを用いて融合・拡張され、浸水地域をより正確に検出する。 提案するネットワークはsen1flood11ベンチマークデータセット上で評価される。 このネットワークは、既存の最先端(一時期)の洪水検出手法を6\%IOUで上回った。 両時間SARデータと効果的なネットワークアーキテクチャを組み合わせることで,一時期的な手法よりも正確な洪水検出が可能になる。

Due to climate and land-use change, natural disasters such as flooding have been increasing in recent years. Timely and reliable flood detection and mapping can help emergency response and disaster management. In this work, we propose a flood detection network using bi-temporal SAR acquisitions. The proposed segmentation network has an encoder-decoder architecture with two Siamese encoders for pre and post-flood images. The network's feature maps are fused and enhanced using attention blocks to achieve more accurate detection of the flooded areas. Our proposed network is evaluated on publicly available Sen1Flood11 benchmark dataset. The network outperformed the existing state-of-the-art (uni-temporal) flood detection method by 6\% IOU. The experiments highlight that the combination of bi-temporal SAR data with an effective network architecture achieves more accurate flood detection than uni-temporal methods.
翻訳日:2022-04-21 18:16:08 公開日:2022-04-20
# (参考訳) 視覚バイアス軽減のためのてんかん性不確かさ重み付き損失

Epistemic Uncertainty-Weighted Loss for Visual Bias Mitigation ( http://arxiv.org/abs/2204.09389v1 )

ライセンス: CC BY 4.0
Rebecca S Stone, Nishant Ravikumar, Andrew J Bulpitt, David C Hogg(参考訳) ディープニューラルネットワークは、視覚データのバイアスの学習に非常に影響を受けやすい。 このようなバイアスを軽減するために様々な方法が提案されているが、大多数はトレーニングデータに存在するバイアスの明示的な知識を必要とする。 我々は、バイアスの存在を全く知らないが、それらを識別し緩和することができる手法を探索することの関連性を議論する。 さらに,個々のトレーニングサンプルの潜在的なバイアスを動的に同定し,トレーニング中に重み付けするために,てんかん性不確実性重み付き損失関数を持つベイズニューラルネットワークを提案する。 バイアスを受けるサンプルと認識の不確実性が高いサンプルとの間には正の相関関係が見いだされる。 最後に,バイアスベンチマークデータセットと実世界の顔検出問題において,視覚バイアスを軽減できる可能性を示し,本手法のメリットと弱点について考察する。

Deep neural networks are highly susceptible to learning biases in visual data. While various methods have been proposed to mitigate such bias, the majority require explicit knowledge of the biases present in the training data in order to mitigate. We argue the relevance of exploring methods which are completely ignorant of the presence of any bias, but are capable of identifying and mitigating them. Furthermore, we propose using Bayesian neural networks with an epistemic uncertainty-weighted loss function to dynamically identify potential bias in individual training samples and to weight them during training. We find a positive correlation between samples subject to bias and higher epistemic uncertainties. Finally, we show the method has potential to mitigate visual bias on a bias benchmark dataset and on a real-world face detection problem, and we consider the merits and weaknesses of our approach.
翻訳日:2022-04-21 18:10:39 公開日:2022-04-20
# (参考訳) あなたが書いたもの - 大規模言語モデルの時代におけるプライバシ保護

You Are What You Write: Preserving Privacy in the Era of Large Language Models ( http://arxiv.org/abs/2204.09391v1 )

ライセンス: CC BY-SA 4.0
Richard Plant, Valerio Giuffrida, Dimitra Gkatzia(参考訳) 大規模言語モデルの大規模導入は、自然言語処理タスクを多用する便利な知識伝達の新たな時代をもたらした。 しかし、これらのモデルはまた、悪意ある当事者によって抽出されるかもしれないデータ対象に関する望ましくない情報を公開することで、ユーザーの信頼を損なうリスクも負う。 本稿では,事前学習された表現にエンコードされた個人情報の程度について,モデルの複雑さ,事前学習に使用されるデータ量,データ漏洩との間に正の相関関係を示す。 本稿では,人口統計情報(位置情報,年齢,性別)にアノテートされた感情分析に基づく大規模多言語データセットを用いた,プライバシ保護アルゴリズムの広範にわたる評価と比較を行った。 その結果、より大規模で複雑なモデルでは個人情報を漏らす傾向が強く、プライバシー保護手法の使用が極めて望ましいことが示された。 また,差分プライバシ(dp)のようなプライバシ保全技術は,ハイブリッドあるいはメトリック-dp技術を用いて改善可能な,重大なモデルユーティリティ効果をも有することがわかった。

Large scale adoption of large language models has introduced a new era of convenient knowledge transfer for a slew of natural language processing tasks. However, these models also run the risk of undermining user trust by exposing unwanted information about the data subjects, which may be extracted by a malicious party, e.g. through adversarial attacks. We present an empirical investigation into the extent of the personal information encoded into pre-trained representations by a range of popular models, and we show a positive correlation between the complexity of a model, the amount of data used in pre-training, and data leakage. In this paper, we present the first wide coverage evaluation and comparison of some of the most popular privacy-preserving algorithms, on a large, multi-lingual dataset on sentiment analysis annotated with demographic information (location, age and gender). The results show since larger and more complex models are more prone to leaking private information, use of privacy-preserving methods is highly desirable. We also find that highly privacy-preserving technologies like differential privacy (DP) can have serious model utility effects, which can be ameliorated using hybrid or metric-DP techniques.
翻訳日:2022-04-21 18:09:53 公開日:2022-04-20
# (参考訳) 連続時間状態空間同定のための深部部分空間エンコーダ

Deep subspace encoders for continuous-time state-space identification ( http://arxiv.org/abs/2204.09405v1 )

ライセンス: CC BY 4.0
Gerben Izaak Beintema, Maarten Schoukens and Roland T\'oth(参考訳) 連続時間(ct)モデルでは,学習中のサンプル効率が向上し,離散時間(dt)モデルと比較して解析性が向上した。 近年の多くの進歩にもかかわらず、外部入力の有無、測定ノイズ、潜時状態などの実験的な側面を考慮すると、多面CT状態空間モデル同定問題は完全な解決には至っていない。 本稿では,これらの特徴を包含する新しい評価手法を提案する。また,小さな完全連結ニューラルネットワークがCTダイナミクスを記述している複数のベンチマークにおいて,最先端の結果を得ることができる。 サブスペースエンコーダアプローチと呼ばれる新しい推定方法は、エンコーダ関数と状態導出正規化項を用いて、計算可能で安定した最適化問題を得ることにより、よく知られたシミュレーション損失を、代わりに短いサブセクションを含むようにすることで、これらの結果を検証する。 このエンコーダ関数は各サブセクションの初期状態を推定する。 エンコーダ関数の存在は、ODEの確立された性質を利用するリプシッツ連続状態微分の必要条件を持つことを示す。

Continuous-time (CT) models have shown an improved sample efficiency during learning and enable ODE analysis methods for enhanced interpretability compared to discrete-time (DT) models. Even with numerous recent developments, the multifaceted CT state-space model identification problem remains to be solved in full, considering common experimental aspects such as the presence of external inputs, measurement noise, and latent states. This paper presents a novel estimation method that includes these aspects and that is able to obtain state-of-the-art results on multiple benchmarks where a small fully connected neural network describes the CT dynamics. The novel estimation method called the subspace encoder approach ascertains these results by altering the well-known simulation loss to include short subsections instead, by using an encoder function and a state-derivative normalization term to obtain a computationally feasible and stable optimization problem. This encoder function estimates the initial states of each considered subsection. We prove that the existence of the encoder function has the necessary condition of a Lipschitz continuous state-derivative utilizing established properties of ODEs.
翻訳日:2022-04-21 18:08:49 公開日:2022-04-20
# (参考訳) 6gcvae: ipv6ターゲット生成のためのゲート畳み込み可変オートエンコーダ

6GCVAE: Gated Convolutional Variational Autoencoder for IPv6 Target Generation ( http://arxiv.org/abs/2204.09425v1 )

ライセンス: CC BY 4.0
Tianyu Cui, Gaopeng Gou, Gang Xiong(参考訳) IPv6スキャンは、ネットワーク計測分野の研究者にとって常に課題となっている。 かなりのIPv6アドレス空間のため、最近のネットワーク速度と計算能力は改善されているが、IPv6のネットワーク空間全体を調査するためのブルートフォースアプローチは、ほぼ不可能である。 システムは、より可能なアクティブなターゲット候補集合を探索するためにアルゴリズム的アプローチを必要とする。 本稿ではまず,このようなipv6ターゲット生成アルゴリズムの設計にディープラーニングを利用する。 このモデルは、ゲート畳み込み層を積み重ねてアドレス構造を効果的に学習し、可変オートエンコーダ(VAE)を構築する。 また,ターゲット生成のモデル効果を改善するため,アドレス分類手法を2つ導入した。 実験の結果,従来のVAEモデルと最先端ターゲット生成アルゴリズムを2つのアクティブアドレスデータセットで比較した。

IPv6 scanning has always been a challenge for researchers in the field of network measurement. Due to the considerable IPv6 address space, while recent network speed and computational power have been improved, using a brute-force approach to probe the entire network space of IPv6 is almost impossible. Systems are required an algorithmic approach to generate more possible active target candidate sets to probe. In this paper, we first try to use deep learning to design such IPv6 target generation algorithms. The model effectively learns the address structure by stacking the gated convolutional layer to construct Variational Autoencoder (VAE). We also introduce two address classification methods to improve the model effect of the target generation. Experiments indicate that our approach 6GCVAE outperformed the conventional VAE models and the state-of-the-art target generation algorithm in two active address datasets.
翻訳日:2022-04-21 17:55:48 公開日:2022-04-20
# (参考訳) DAM-GAN : フェイクテクスチャ検出に基づくダイナミックアテンションマップを用いた画像インペインティング

DAM-GAN : Image Inpainting using Dynamic Attention Map based on Fake Texture Detection ( http://arxiv.org/abs/2204.09442v1 )

ライセンス: CC BY 4.0
Dongmin Cha, Daijin Kim(参考訳) 深層ニューラルネットワークの進歩により、画像インペインティングの分野では、画像合成性能が著しく向上した。 特にgan(generative adversarial networks)の適応は、高品質な画像再構成の著しい進歩を加速させた。 しかし、画像インペインティングのために多くのganベースのネットワークが提案されているが、生成過程中に合成画像にまだピクセルアーティファクトや色不整合が生じ、通常は偽テクスチャと呼ばれる。 偽テクスチャによる画素不整合性障害を低減するため,ダイナミックアテンションマップ(DAM-GAN)を用いたGANモデルを提案する。 提案するDAM-GANは,ジェネレータの特徴マップから画素不整合を減少させるために,偽テクスチャの検出と動的注意マップの製品化に重点を置いている。 CelebA-HQとPlaces2データセットの評価結果は,ネットワークの優位性を示している。

Deep neural advancements have recently brought remarkable image synthesis performance to the field of image inpainting. The adaptation of generative adversarial networks (GAN) in particular has accelerated significant progress in high-quality image reconstruction. However, although many notable GAN-based networks have been proposed for image inpainting, still pixel artifacts or color inconsistency occur in synthesized images during the generation process, which are usually called fake textures. To reduce pixel inconsistency disorder resulted from fake textures, we introduce a GAN-based model using dynamic attention map (DAM-GAN). Our proposed DAM-GAN concentrates on detecting fake texture and products dynamic attention maps to diminish pixel inconsistency from the feature maps in the generator. Evaluation results on CelebA-HQ and Places2 datasets with other image inpainting approaches show the superiority of our network.
翻訳日:2022-04-21 17:47:14 公開日:2022-04-20
# (参考訳) STAU:ビデオ予測などのための時空間認識ユニット

STAU: A SpatioTemporal-Aware Unit for Video Prediction and Beyond ( http://arxiv.org/abs/2204.09456v1 )

ライセンス: CC BY 4.0
Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao(参考訳) ビデオ予測は、ビデオの複雑な時空間ダイナミクスをモデル化することで、将来のフレームを予測することを目的としている。 しかし,既存の手法の多くは,映像の時間的情報と空間的情報のみを独立的にモデル化しているが,両者の相関関係は十分に解明されていない。 本稿では,映像の時空間相関を探究し,映像予測のための時空間認識ユニット(stau)を提案する。 一方、運動認識の注意重みは空間状態から学習され、時間領域における時間状態の集約を支援する。 一方、空間領域における空間状態の集約を支援するために、時間状態から外観認識の注意重みを学習する。 このように、両領域において時空間情報と空間情報は相互に大きく認識され、その間、時空間受容場はより信頼性の高い時空間モデリングのために大きく拡張される。 実験は、従来のビデオ予測タスクだけでなく、初期のアクション認識やオブジェクト検出タスクを含む、ビデオ予測以外のタスクでも行われている。 実験結果から,STAUは性能および計算効率の面で,全てのタスクにおける他の手法よりも優れていることがわかった。

Video prediction aims to predict future frames by modeling the complex spatiotemporal dynamics in videos. However, most of the existing methods only model the temporal information and the spatial information for videos in an independent manner but haven't fully explored the correlations between both terms. In this paper, we propose a SpatioTemporal-Aware Unit (STAU) for video prediction and beyond by exploring the significant spatiotemporal correlations in videos. On the one hand, the motion-aware attention weights are learned from the spatial states to help aggregate the temporal states in the temporal domain. On the other hand, the appearance-aware attention weights are learned from the temporal states to help aggregate the spatial states in the spatial domain. In this way, the temporal information and the spatial information can be greatly aware of each other in both domains, during which, the spatiotemporal receptive field can also be greatly broadened for more reliable spatiotemporal modeling. Experiments are not only conducted on traditional video prediction tasks but also other tasks beyond video prediction, including the early action recognition and object detection tasks. Experimental results show that our STAU can outperform other methods on all tasks in terms of performance and computation efficiency.
翻訳日:2022-04-21 17:40:10 公開日:2022-04-20
# (参考訳) SiamHAN: シームズ不均一グラフ注意ネットワークによるTLS暗号化トラフィック上のIPv6アドレス相関攻撃

SiamHAN: IPv6 Address Correlation Attacks on TLS Encrypted Traffic via Siamese Heterogeneous Graph Attention Network ( http://arxiv.org/abs/2204.09465v1 )

ライセンス: CC BY 4.0
Tianyu Cui, Gaopeng Gou, Gang Xiong, Zhen Li, Mingxin Cui, Chang Liu(参考訳) 通常NATによって隠蔽されるIPv4アドレスとは異なり、IPv6アドレスはユーザーの活動と容易に相関し、プライバシーを脅かす。 このプライバシー問題に対処するための緩和策が展開され、アドレスとユーザ間の相関に対する既存のアプローチは信頼性が低い。 この研究は、敵が依然としてIPv6アドレスをユーザと正確に相関できることを示した。 そこで我々は,ipv6アドレス相関モデル siamhan を提案する。 このモデルは、ユーザのトラフィックがTLS暗号化によって保護されている場合でも、2つのIPv6クライアントアドレスが同一ユーザに属しているかどうかを測定するために、Siamese Heterogeneous Graph Attention Networkを使用する。 大規模な実世界のデータセットを使用することで、ターゲットユーザを追跡し、ユニークなユーザを見つけるタスクに対して、最先端の技術がそれぞれ85%と60%の精度を達成できることが分かる。 しかし、SiamHANは99%、精度は88%である。

Unlike IPv4 addresses, which are typically masked by a NAT, IPv6 addresses could easily be correlated with user activity, endangering their privacy. Mitigations to address this privacy concern have been deployed, making existing approaches for address-to-user correlation unreliable. This work demonstrates that an adversary could still correlate IPv6 addresses with users accurately, even with these protection mechanisms. To do this, we propose an IPv6 address correlation model - SiamHAN. The model uses a Siamese Heterogeneous Graph Attention Network to measure whether two IPv6 client addresses belong to the same user even if the user's traffic is protected by TLS encryption. Using a large real-world dataset, we show that, for the tasks of tracking target users and discovering unique users, the state-of-the-art techniques could achieve only 85% and 60% accuracy, respectively. However, SiamHAN exhibits 99% and 88% accuracy.
翻訳日:2022-04-21 17:13:10 公開日:2022-04-20
# (参考訳) タンパク質分類のためのグラフニューラルネットワークと注目に基づくCNN-LSTM

Graph neural networks and attention-based CNN-LSTM for protein classification ( http://arxiv.org/abs/2204.09486v1 )

ライセンス: CC BY 4.0
Zhuangwei Shi(参考訳) 本稿では,タンパク質の分類に関する3つの重要な問題に焦点をあてる。 まず、炭水化物活性酵素(cazyme)の分類は、酵素の性質を理解するのに役立つ。 しかし、1つのCAZymeはいくつかのクラスに属するかもしれない。 これは多ラベルCAZyme分類につながる。 次に、タンパク質の二次構造から情報を取得するために、タンパク質分類をグラフ分類問題としてモデル化する。 第3に、複合タンパク質相互作用予測は、タンパク質のシーケンシャル埋め込みを伴う化合物のグラフ学習を用いる。 これは複合タンパク質対の分類タスクと見なすことができる。 本稿では,タンパク質分類の3つのモデルを提案する。 まず,CNN-LSTMを用いた多ラベルCAZyme分類モデルを提案する。 次に,タンパク質グラフ分類のための変分グラフオートエンコーダに基づく部分空間学習モデルを提案する。 第3に,複合タンパク質相互作用予測のためのグラフ同型ネットワーク(GIN)とアテンションに基づくCNN-LSTMを提案し,その課題におけるグラフ畳み込みネットワーク(GCN)とグラフアテンションネットワーク(GAT)との比較を行った。 提案モデルはタンパク質の分類に有効である。 ソースコードとデータはhttps://github.com/zshicode/GNN-AttCL-oproteinで入手できる。 このリポジトリは、CAZyme分類、酵素タンパク質グラフ分類、複合タンパク質相互作用予測、薬物-標的親和性予測、薬物-薬物相互作用予測など、上記の問題に関するベンチマークデータセットを収集し、照合する。 したがって、ベンチマークデータセットによる評価はより便利である。

This paper focuses on three critical problems on protein classification. Firstly, Carbohydrate-active enzyme (CAZyme) classification can help people to understand the properties of enzymes. However, one CAZyme may belong to several classes. This leads to Multi-label CAZyme classification. Secondly, to capture information from the secondary structure of protein, protein classification is modeled as graph classification problem. Thirdly, compound-protein interactions prediction employs graph learning for compound with sequential embedding for protein. This can be seen as classification task for compound-protein pairs. This paper proposes three models for protein classification. Firstly, this paper proposes a Multi-label CAZyme classification model using CNN-LSTM with Attention mechanism. Secondly, this paper proposes a variational graph autoencoder based subspace learning model for protein graph classification. Thirdly, this paper proposes graph isomorphism networks (GIN) and Attention-based CNN-LSTM for compound-protein interactions prediction, as well as comparing GIN with graph convolution networks (GCN) and graph attention networks (GAT) in this task. The proposed models are effective for protein classification. Source code and data are available at https://github.com/zshicode/GNN-AttCL-protein. Besides, this repository collects and collates the benchmark datasets with respect to above problems, including CAZyme classification, enzyme protein graph classification, compound-protein interactions prediction, drug-target affinities prediction and drug-drug interactions prediction. Hence, the usage for evaluation by benchmark datasets can be more conveniently.
翻訳日:2022-04-21 16:51:19 公開日:2022-04-20
# (参考訳) 強化学習に基づくVolt-VAR制御データセットとテスト環境

A Reinforcement Learning-based Volt-VAR Control Dataset and Testing Environment ( http://arxiv.org/abs/2204.09500v1 )

ライセンス: CC BY 4.0
Yuanqi Gao, Nanpeng Yu(参考訳) 本稿では,RLに基づく電力分配システムVolt-VAR(Volt-VAR Control)の開発を容易にするために,サンプル効率,安全性,ロバスト性を備えたRLベースのVVCアルゴリズム研究のための一連のオープンソースデータセットを提案する。 データセットは2つのコンポーネントから構成される。 1.ieee-13, 123, 8500バステストフィーダ用ジム型vvcテスト環境 2. 供給者毎の履歴運用データセット。 データセットとテスト環境の潜在的ユーザは、まず、過去のデータセット上でサンプル効率のよいオフライン(バッチ)RLアルゴリズムをトレーニングし、その後、テスト環境でトレーニングされたRLエージェントのパフォーマンスを評価することができる。 このデータセットは、電力事業者が直面している現実的な運用上の課題を模倣するRLベースのVVC研究を行う上で有用なテストベッドとして機能する。 一方、研究者は異なるアルゴリズム間で公正な性能比較を行うことができる。

To facilitate the development of reinforcement learning (RL) based power distribution system Volt-VAR control (VVC), this paper introduces a suite of open-source datasets for RL-based VVC algorithm research that is sample efficient, safe, and robust. The dataset consists of two components: 1. a Gym-like VVC testing environment for the IEEE-13, 123, and 8500-bus test feeders and 2. a historical operational dataset for each of the feeders. Potential users of the dataset and testing environment could first train an sample-efficient off-line (batch) RL algorithm on the historical dataset and then evaluate the performance of the trained RL agent on the testing environments. This dataset serves as a useful testbed to conduct RL-based VVC research mimicking the real-world operational challenges faced by electric utilities. Meanwhile, it allows researchers to conduct fair performance comparisons between different algorithms.
翻訳日:2022-04-21 16:41:17 公開日:2022-04-20
# (参考訳) 強化学習における能力損失の理解と防止

Understanding and Preventing Capacity Loss in Reinforcement Learning ( http://arxiv.org/abs/2204.09560v1 )

ライセンス: CC BY 4.0
Clare Lyle, Mark Rowland, Will Dabney(参考訳) 強化学習(rl)問題には非定常性の源があるため、ニューラルネットワークの応用において、非常に難しい問題領域となっている。 我々は,非定常予測対象が深層rlエージェントの学習進行を防止できるメカニズムを明らかにした: \textit{capacity loss},すなわち,目標値のシーケンスでトレーニングされたネットワークは,時間とともに予測を迅速に更新する能力を失う。 我々は,様々なrlエージェントや環境においてキャパシティ損失が発生し,スパースリワードタスクの性能に特に影響を与えることを実証する。 InFeR(Initial Feature Regularization)という単純な正規化器を,初期化時に特徴のサブ空間をその値に回帰することで,モンテズマのRevengeのような疎逆環境において大幅な性能向上をもたらすことで,この現象を緩和する。 学習経路全体を通して得られた学習信号からエージェントが最大限の利益を得るためには,キャパシティ損失の防止が不可欠である。

The reinforcement learning (RL) problem is rife with sources of non-stationarity, making it a notoriously difficult problem domain for the application of neural networks. We identify a mechanism by which non-stationary prediction targets can prevent learning progress in deep RL agents: \textit{capacity loss}, whereby networks trained on a sequence of target values lose their ability to quickly update their predictions over time. We demonstrate that capacity loss occurs in a range of RL agents and environments, and is particularly damaging to performance in sparse-reward tasks. We then present a simple regularizer, Initial Feature Regularization (InFeR), that mitigates this phenomenon by regressing a subspace of features towards its value at initialization, leading to significant performance improvements in sparse-reward environments such as Montezuma's Revenge. We conclude that preventing capacity loss is crucial to enable agents to maximally benefit from the learning signals they obtain throughout the entire training trajectory.
翻訳日:2022-04-21 16:31:36 公開日:2022-04-20
# (参考訳) テキスト単純化の倫理的考察

On the Ethical Considerations of Text Simplification ( http://arxiv.org/abs/2204.09565v1 )

ライセンス: CC BY 4.0
Sian Gooding(参考訳) 本稿では,補助システムの枠組みにおけるテキスト単純化の倫理的意味を概説する。 我々は,テキスト簡易化を行う技術と,それを実現する技術とを区別すべきである。 後者を研究の動機として用いる場合、その後の倫理的影響を慎重に検討することが重要である。 我々は,補助システムとは独立して,テキスト簡易化の枠組み化のためのガイドラインを提供し,今後の研究・議論の方向性を示唆する。

This paper outlines the ethical implications of text simplification within the framework of assistive systems. We argue that a distinction should be made between the technologies that perform text simplification and the realisation of these in assistive technologies. When using the latter as a motivation for research, it is important that the subsequent ethical implications be carefully considered. We provide guidelines for the framing of text simplification independently of assistive systems, as well as suggesting directions for future research and discussion based on the concerns raised.
翻訳日:2022-04-21 16:07:57 公開日:2022-04-20
# (参考訳) 胎児脳組織アノテーションとセグメンテーション課題

Fetal Brain Tissue Annotation and Segmentation Challenge Results ( http://arxiv.org/abs/2204.09573v1 )

ライセンス: CC BY 4.0
Kelly Payette, Hongwei Li, Priscille de Dumast, Roxane Licandro, Hui Ji, Md Mahfuzur Rahman Siddiquee, Daguang Xu, Andriy Myronenko, Hao Liu, Yuchen Pei, Lisheng Wang, Ying Peng, Juanying Xie, Huiquan Zhang, Guiming Dong, Hao Fu, Guotai Wang, ZunHyan Rieu, Donghyeon Kim, Hyun Gi Kim, Davood Karimi, Ali Gholipour, Helena R. Torres, Bruno Oliveira, Jo\~ao L. Vila\c{c}a, Yang Lin, Netanell Avisdris, Ori Ben-Zvi, Dafna Ben Bashat, Lucas Fidon, Michael Aertsen, Tom Vercauteren, Daniel Sobotka, Georg Langs, Mireia Aleny\`a, Maria Inmaculada Villanueva, Oscar Camara, Bella Specktor Fadida, Leo Joskowicz, Liao Weibin, Lv Yi, Li Xuesong, Moona Mazher, Abdul Qayyum, Domenec Puig, Hamza Kebiri, Zelin Zhang, Xinyi Xu, Dan Wu, KuanLun Liao, YiXuan Wu, JinTai Chen, Yunzhi Xu, Li Zhao, Lana Vasung, Bjoern Menze, Meritxell Bach Cuadra, Andras Jakab(参考訳) 子宮内MRIは、発達するヒト脳の診断と解析において重要なツールとして浮上している。 発達する胎児脳の自動分節は、研究と臨床の両方において出生前神経発達の定量的解析において重要なステップである。 しかし、手作業による脳構造分割は、時間を要するため、エラーやオブザーバ間の変動が起こりやすい。 そこで,我々は2021年に胎児組織アノテーション(feta)の課題を整理し,国際レベルでの自動セグメント化アルゴリズムの開発を奨励した。 この課題は、胎児脳MRIのオープンデータセットであるFeTA Datasetを、7つの異なる組織(外脳脊髄液、灰白質、白質、心室、小脳、脳幹、深部灰白質)に分割した。 20の国際チームがこの挑戦に参加し、21のアルゴリズムを提出した。 本稿では,技術面および臨床面の両方からの結果を詳細に分析する。 すべての参加者は、ネットワークアーキテクチャ、最適化、画像前処理と後処理にいくつかのバリエーションがある、主にU-Netのようなディープラーニング手法に頼っていた。 大部分のチームは既存の医療画像深層学習フレームワークを使用していた。 提案の主な違いは、トレーニング中に行われた微調整と、特定の前処理と後処理のステップである。 課題の結果、ほぼ全ての応募が同様に実行された。 上位5チームのうち4チームがアンサンブル学習手法を使用した。 しかし、あるチームのアルゴリズムは他の提案よりもかなり優れており、非対称なU-Netネットワークアーキテクチャで構成されていた。 本論文は、ヒト脳の発達過程における自動マルチトイシューセグメンテーションアルゴリズムのための、最初のこの種のベンチマークを提供する。

In-utero fetal MRI is emerging as an important tool in the diagnosis and analysis of the developing human brain. Automatic segmentation of the developing fetal brain is a vital step in the quantitative analysis of prenatal neurodevelopment both in the research and clinical context. However, manual segmentation of cerebral structures is time-consuming and prone to error and inter-observer variability. Therefore, we organized the Fetal Tissue Annotation (FeTA) Challenge in 2021 in order to encourage the development of automatic segmentation algorithms on an international level. The challenge utilized FeTA Dataset, an open dataset of fetal brain MRI reconstructions segmented into seven different tissues (external cerebrospinal fluid, grey matter, white matter, ventricles, cerebellum, brainstem, deep grey matter). 20 international teams participated in this challenge, submitting a total of 21 algorithms for evaluation. In this paper, we provide a detailed analysis of the results from both a technical and clinical perspective. All participants relied on deep learning methods, mainly U-Nets, with some variability present in the network architecture, optimization, and image pre- and post-processing. The majority of teams used existing medical imaging deep learning frameworks. The main differences between the submissions were the fine tuning done during training, and the specific pre- and post-processing steps performed. The challenge results showed that almost all submissions performed similarly. Four of the top five teams used ensemble learning methods. However, one team's algorithm performed significantly superior to the other submissions, and consisted of an asymmetrical U-Net network architecture. This paper provides a first of its kind benchmark for future automatic multi-tissue segmentation algorithms for the developing human brain in utero.
翻訳日:2022-04-21 15:57:34 公開日:2022-04-20
# (参考訳) 人間中心型対話型機械学習の設計と評価に関する簡単なガイド

A Brief Guide to Designing and Evaluating Human-Centered Interactive Machine Learning ( http://arxiv.org/abs/2204.09622v1 )

ライセンス: CC BY 4.0
Kory W. Mathewson, Patrick M. Pilarski(参考訳) インタラクティブ機械学習(Interactive Machine Learning, IML)は、意思決定システムにおいて人間と計算能力の両方を活用する方法を研究する研究分野である。 IMLは、チームとして働く複数の補完的な人間と機械の知能システム間のコラボレーションを表し、それぞれ独自の能力と制限を持っている。 このチームワークは、両方のシステムが同時に、あるいはシークエンスで行動することを意味します。 IMLの分野における2つの大きなオープンリサーチの質問は、"人間のインタラクションによってよりよい意思決定ができるシステムをどうやって設計すべきか"、"そのようなシステムの設計とデプロイをどのように評価すべきか"である。 関係する人間に対する適切な配慮の欠如は、システムの問題行動や公平性、説明責任、透明性の問題につながる可能性がある。 そこで本研究の目的は,リスクを軽減しつつIMLシステムを設計,評価するための人間中心のガイドを提供することである。 このガイドは、相互作用する人間の健康、安全、幸福に責任を持つ機械学習の実践者が使用することを意図している。 公的な相互作用に対する責任の義務とは、正当性、誠実性、公正性、および該当する法規に従属する行為をいう。 これらの価値観と原則を念頭に置いて、マシンラーニング研究コミュニティとして、人間のスキルと能力を増強する目標を達成できます。 この実践的なガイドは、IMLシステムの反復設計、開発、普及を通じて必要な責任を負う決定の多くを支援することを目的としている。

Interactive machine learning (IML) is a field of research that explores how to leverage both human and computational abilities in decision making systems. IML represents a collaboration between multiple complementary human and machine intelligent systems working as a team, each with their own unique abilities and limitations. This teamwork might mean that both systems take actions at the same time, or in sequence. Two major open research questions in the field of IML are: "How should we design systems that can learn to make better decisions over time with human interaction?" and "How should we evaluate the design and deployment of such systems?" A lack of appropriate consideration for the humans involved can lead to problematic system behaviour, and issues of fairness, accountability, and transparency. Thus, our goal with this work is to present a human-centred guide to designing and evaluating IML systems while mitigating risks. This guide is intended to be used by machine learning practitioners who are responsible for the health, safety, and well-being of interacting humans. An obligation of responsibility for public interaction means acting with integrity, honesty, fairness, and abiding by applicable legal statutes. With these values and principles in mind, we as a machine learning research community can better achieve goals of augmenting human skills and abilities. This practical guide therefore aims to support many of the responsible decisions necessary throughout the iterative design, development, and dissemination of IML systems.
翻訳日:2022-04-21 15:56:05 公開日:2022-04-20
# 患者特異的大腿骨骨折リスクスクリーニングのためのct画像からの高速かつロバストな大腿骨分割法

Fast and Robust Femur Segmentation from Computed Tomography Images for Patient-Specific Hip Fracture Risk Screening ( http://arxiv.org/abs/2204.09575v1 )

ライセンス: Link先を確認
Pall Asgeir Bjornsson, Alexander Baker, Ingmar Fleps, Yves Pauchard, Halldor Palsson, Stephen J. Ferguson, Sigurdur Sigurdsson, Vilmundur Gudnason, Benedikt Helgason, Lotta Maria Ellingsen(参考訳) 骨粗しょう症は骨骨折のリスクを高める一般的な骨疾患である。 有限要素解析に基づくヒップフラクチャーリスクスクリーニング法は, 分割CT画像に依存するが, 現在の大腿骨分割法では, 大規模なデータセットを手動で記述する必要がある。 本稿では,CTから大腿骨近位部を完全自動化し,高精度かつ高速に分割するディープニューラルネットワークを提案する。 人工股関節置換術を併用した大腿骨近位部1147例の評価は,当法が股関節脱臼リスクスクリーニングに適していることを示している。

Osteoporosis is a common bone disease that increases the risk of bone fracture. Hip-fracture risk screening methods based on finite element analysis depend on segmented computed tomography (CT) images; however, current femur segmentation methods require manual delineations of large data sets. Here we propose a deep neural network for fully automated, accurate, and fast segmentation of the proximal femur from CT. Evaluation on a set of 1147 proximal femurs with ground truth segmentations demonstrates that our method is apt for hip-fracture risk screening, bringing us one step closer to a clinically viable option for screening at-risk patients for hip-fracture susceptibility.
翻訳日:2022-04-21 15:46:25 公開日:2022-04-20
# ディエンタングリング話者による自己教師付き音声表現の改善

Improving Self-Supervised Speech Representations by Disentangling Speakers ( http://arxiv.org/abs/2204.09224v1 )

ライセンス: Link先を確認
Kaizhi Qian, Yang Zhang, Heting Gao, Junrui Ni, Cheng-I Lai, David Cox, Mark Hasegawa-Johnson, Shiyu Chang(参考訳) 音声における自己教師あり学習は、大規模無注釈音声コーパス上で音声表現ネットワークを訓練し、学習した表現を下流タスクに適用する。 音声におけるSSL学習のダウンストリームタスクの大部分は、音声中のコンテンツ情報に重点を置いているため、最も望ましい音声表現は、話者のバリエーションのような望ましくないバリエーションをコンテンツから切り離すことができる。 しかし、話者情報の削除は容易にコンテンツの損失につながる可能性があり、後者の損傷は前者の利益をはるかに上回るため、話者の分離は非常に困難である。 本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。 提案手法は HuBERT フレームワークに適応し,教師ラベルと学習表現の両方を正規化するための切り離し機構を取り入れている。 我々は、コンテンツ関連下流タスクの集合における話者のゆがみの利点を評価し、我々の話者のゆがみ表現の一貫性と顕著な性能の利点を観察する。

Self-supervised learning in speech involves training a speech representation network on a large-scale unannotated speech corpus, and then applying the learned representations to downstream tasks. Since the majority of the downstream tasks of SSL learning in speech largely focus on the content information in speech, the most desirable speech representations should be able to disentangle unwanted variations, such as speaker variations, from the content. However, disentangling speakers is very challenging, because removing the speaker information could easily result in a loss of content as well, and the damage of the latter usually far outweighs the benefit of the former. In this paper, we propose a new SSL method that can achieve speaker disentanglement without severe loss of content. Our approach is adapted from the HuBERT framework, and incorporates disentangling mechanisms to regularize both the teacher labels and the learned representations. We evaluate the benefit of speaker disentanglement on a set of content-related downstream tasks, and observe a consistent and notable performance advantage of our speaker-disentangled representations.
翻訳日:2022-04-21 15:46:12 公開日:2022-04-20
# イミュータブル予測を用いた最適和解

Optimal reconciliation with immutable forecasts ( http://arxiv.org/abs/2204.09231v1 )

ライセンス: Link先を確認
Bohan Zhang, Yanfei Kang, Anastasios Panagiotelis, Feng Li(参考訳) 階層的予測におけるコヒーレント予測の実践的重要性は、予測和解に関する多くの研究に影響を与えた。 このアプローチでは、階層内のすべてのシリーズに対していわゆるベース予測が生成され、その後、第2の和解ステップでコヒーレントに調整される。 再現法は予測精度を向上させることが示されているが、一般には各系列のベース予測を調整する。 しかし、運用環境では、予測和解後の変数の予測を変更せずに維持することは、時々必要または有益である。 本稿では,変数の既定部分集合の予測を不変あるいは「不変」に保つ調整方法論を定式化する。 既存のアプローチとは対照的に、イミュータブルな予測は階層の同じレベルから来る必要はなく、この手法はグループ化された階層にも適用できる。 我々は,我々のアプローチがベース予測の不偏性を維持することを証明している。 また,ベース予測誤差の相関関係を考慮し,予測の非否定性を保証する。 また,大規模オンライン小売業者の販売への応用を含む実証実験を行い,提案手法の効果を評価した。

The practical importance of coherent forecasts in hierarchical forecasting has inspired many studies on forecast reconciliation. Under this approach, so-called base forecasts are produced for every series in the hierarchy and are subsequently adjusted to be coherent in a second reconciliation step. Reconciliation methods have been shown to improve forecast accuracy, but will, in general, adjust the base forecast of every series. However, in an operational context, it is sometimes necessary or beneficial to keep forecasts of some variables unchanged after forecast reconciliation. In this paper, we formulate reconciliation methodology that keeps forecasts of a pre-specified subset of variables unchanged or "immutable". In contrast to existing approaches, these immutable forecasts need not all come from the same level of a hierarchy, and our method can also be applied to grouped hierarchies. We prove that our approach preserves unbiasedness in base forecasts. Our method can also account for correlations between base forecasting errors and ensure non-negativity of forecasts. We also perform empirical experiments, including an application to sales of a large scale online retailer, to assess the impacts of our proposed methodology.
翻訳日:2022-04-21 15:45:53 公開日:2022-04-20
# 超伝導光電子単一光子シナプスの実証

Demonstration of Superconducting Optoelectronic Single-Photon Synapses ( http://arxiv.org/abs/2204.09665v1 )

ライセンス: Link先を確認
Saeed Khan, Bryce A. Primavera, Jeff Chiles, Adam N. McCaughan, Sonia M. Buckley, Alexander N. Tait, Adriana Lita, John Biesecker, Anna Fox, David Olaya, Richard P. Mirin, Sae Woo Nam, and Jeffrey M. Shainline(参考訳) 超伝導光電子ハードウェアは、前例のない複雑さと計算能力を持つ人工スパイクニューラルネットワークへの道として研究されている。 このようなハードウェアは、少数の光子、光速通信のための集積フォトニックコンポーネントと、高速でエネルギー効率の良い計算のために超伝導回路を組み合わせる。 超伝導デバイスとフォトニックデバイスのモノリシックな統合は、この技術のスケーリングに不可欠である。 本研究は、超伝導-ナノワイヤ単光子検出器をジョセフソン接合と初めてモノリシックに統合し、超伝導光電子シナプスの実現を可能にする。 単一光子前シナプス信号のアナログ重み付けと時間的漏洩積分を行う回路を提案する。 シナプス重み付けは電子領域に実装され、バイナリで単一光子通信を維持することができる。 最近のシナプス活動の記録は超伝導ループの電流として局所的に保存されている。 樹状および神経細胞の非線形性はジョセフソン回路の第2段階で実装される。 ハードウェアは設計の柔軟性が高く、4桁(数百ナノ秒からミリ秒)のシナプス時間定数が示される。 シナプスは10MHzを超えるシナプス前のスパイクレートに反応し、冷却に先立ってシナプスのイベントごとに約33 aJのダイナミックパワーを消費する。 ニューロモルフィックハードウェアに加えて、これらの回路は多様なイメージング、センシング、量子通信用途のために大規模な単一光子検出器アレイを実現するための新しい方法を導入している。

Superconducting optoelectronic hardware is being explored as a path towards artificial spiking neural networks with unprecedented scales of complexity and computational ability. Such hardware combines integrated-photonic components for few-photon, light-speed communication with superconducting circuits for fast, energy-efficient computation. Monolithic integration of superconducting and photonic devices is necessary for the scaling of this technology. In the present work, superconducting-nanowire single-photon detectors are monolithically integrated with Josephson junctions for the first time, enabling the realization of superconducting optoelectronic synapses. We present circuits that perform analog weighting and temporal leaky integration of single-photon presynaptic signals. Synaptic weighting is implemented in the electronic domain so that binary, single-photon communication can be maintained. Records of recent synaptic activity are locally stored as current in superconducting loops. Dendritic and neuronal nonlinearities are implemented with a second stage of Josephson circuitry. The hardware presents great design flexibility, with demonstrated synaptic time constants spanning four orders of magnitude (hundreds of nanoseconds to milliseconds). The synapses are responsive to presynaptic spike rates exceeding 10 MHz and consume approximately 33 aJ of dynamic power per synapse event before accounting for cooling. In addition to neuromorphic hardware, these circuits introduce new avenues towards realizing large-scale single-photon-detector arrays for diverse imaging, sensing, and quantum communication applications.
翻訳日:2022-04-21 15:45:36 公開日:2022-04-20
# 事前確率に基づく軌道の意味的位置アノテーションに対する教師なしアプローチ

An unsupervised approach for semantic place annotation of trajectories based on the prior probability ( http://arxiv.org/abs/2204.09054v1 )

ライセンス: Link先を確認
Junyi Cheng, Xianfeng Zhang, Peng Luo, Jie Huang, Jianfeng Huang(参考訳) 意味的場所アノテーションは個々の意味論を提供することができ、軌道データマイニングの分野で大いに役立つ。 既存のほとんどのメソッドは注釈付きデータや外部データに依存しており、リージョンの変更後に再トレーニングする必要がある。 本稿では,時空間情報を用いたトラジェクタの意味的位置アノテーションのためのupappという教師なし手法を提案する。 ベイズ基準は特に、候補地の時空間確率を空間確率、期間確率、訪問時間確率に分解するために用いられる。 その後、ROIおよびPOIデータの空間情報を用いて空間確率を算出する。 時間的確率の観点からは、項周波数逆文書重み付けアルゴリズムを用いて、軌跡内の異なる場所タイプへの潜在的な訪問をカウントし、訪問時間と継続時間の事前確率を生成する。 次に、候補場所の時空間確率と、訪れた場所をアノテートする場所カテゴリーの重要性が結合される。 北京の709人のボランティアが収集した軌跡データセットによる検証の結果,訪問した場所を外部データなしで正確にアノテートできることがわかり,その精度は0.712,0.720と推定された。

Semantic place annotation can provide individual semantics, which can be of great help in the field of trajectory data mining. Most existing methods rely on annotated or external data and require retraining following a change of region, thus preventing their large-scale applications. Herein, we propose an unsupervised method denoted as UPAPP for the semantic place annotation of trajectories using spatiotemporal information. The Bayesian Criterion is specifically employed to decompose the spatiotemporal probability of the candidate place into spatial probability, duration probability, and visiting time probability. Spatial information in ROI and POI data is subsequently adopted to calculate the spatial probability. In terms of the temporal probabilities, the Term Frequency Inverse Document Frequency weighting algorithm is used to count the potential visits to different place types in the trajectories, and generates the prior probabilities of the visiting time and duration. The spatiotemporal probability of the candidate place is then combined with the importance of the place category to annotate the visited places. Validation with a trajectory dataset collected by 709 volunteers in Beijing showed that our method achieved an overall and average accuracy of 0.712 and 0.720, respectively, indicating that the visited places can be annotated accurately without any external data.
翻訳日:2022-04-21 15:45:00 公開日:2022-04-20
# 大規模時間グラフのためのスケーラブルモチーフカウント

Scalable Motif Counting for Large-scale Temporal Graphs ( http://arxiv.org/abs/2204.09236v1 )

ライセンス: Link先を確認
Zhongqiang Gao, Chuanqi Cheng, Yanwei Yu, Lei Cao, Chao Huang, Junyu Dong(参考訳) 時間グラフ解析の根本的な問題は、小さな連結されたサブグラフパターン(モチーフ)の発生を数えることであり、これは異常検出、構造予測、ネットワーク表現学習などの幅広い現実世界の応用に有効である。 しかしながら、時間的モチーフの精密化に焦点を当てた既存の作品は、計算コストの重いことや並列性に固有の不備があるため、大規模な時間グラフデータにはスケーラブルではない。 本研究では,大規模時間グラフにおける時間モチーフを正確にカウントするスケーラブルな並列フレームワークを提案する。 まず、それぞれの特性に基づいて時間的モチーフを分類し、各カテゴリのモチーフを正確にカウントするための効率的な戦略を提供するカスタマイズアルゴリズムを設計する。 さらに,3重カウンタと4重カウンタというコンパクトなデータ構造により,エッジ情報とエッジ間の関係に基づいて,各カテゴリの時間的モチーフインスタンスを直接識別することが可能となり,計数効率が大幅に向上した。 提案したカウントアルゴリズムに基づいて,ノード間並列戦略とノード間並列戦略の両方を特徴とする階層並列フレームワークを設計し,CPUのマルチスレッド能力を活用して時間的モチーフを並列にカウントする。 16種類の実世界のテンポラリグラフデータセットに関する広範囲な実験により,提案手法が提案するテンポラリモチーフ数付け手法の優位性と能力を示し,最先端手法と比較して最大538*高速化を達成した。 このメソッドのソースコードは、https://github.com/steven-ccq/fast-temporal-motifで入手できる。

One fundamental problem in temporal graph analysis is to count the occurrences of small connected subgraph patterns (i.e., motifs), which benefits a broad range of real-world applications, such as anomaly detection, structure prediction, and network representation learning. However, existing works focused on exacting temporal motif are not scalable to large-scale temporal graph data, due to their heavy computational costs or inherent inadequacy of parallelism. In this work, we propose a scalable parallel framework for exactly counting temporal motifs in large-scale temporal graphs. We first categorize the temporal motifs based on their distinct properties, and then design customized algorithms that offer efficient strategies to exactly count the motif instances of each category. Moreover, our compact data structures, namely triple and quadruple counters, enable our algorithms to directly identify the temporal motif instances of each category, according to edge information and the relationship between edges, therefore significantly improving the counting efficiency. Based on the proposed counting algorithms, we design a hierarchical parallel framework that features both inter- and intra-node parallel strategies, and fully leverages the multi-threading capacity of modern CPU to concurrently count all temporal motifs. Extensive experiments on sixteen real-world temporal graph datasets demonstrate the superiority and capability of our proposed framework for temporal motif counting, achieving up to 538* speedup compared to the state-of-the-art methods. The source code of our method is available at: https://github.com/steven-ccq/FAST-temporal-motif.
翻訳日:2022-04-21 15:44:37 公開日:2022-04-20
# DAME: マッチングエンティティのためのドメイン適応

DAME: Domain Adaptation for Matching Entities ( http://arxiv.org/abs/2204.09244v1 )

ライセンス: Link先を確認
Mohamed Trabelsi, Jeff Heflin, Jin Cao(参考訳) エンティティマッチング(EM)は、同じ現実世界のエンティティを参照するデータレコードを識別する。 過去数年間のemのパフォーマンス改善努力にもかかわらず、既存のメソッドはトレーニングフェーズで各ドメインに大量のラベル付きデータを必要としている。 これらのメソッドは各ドメインを個別に扱い、em内の各データセットの特定の信号をキャプチャする。 あるデータセットから学んだ知識は、ラベル付きサンプルが少ない未確認データセットの予測を行うために、EMタスクをよりよく理解するために利用されない。 本稿では,複数のソースドメインから対象ドメインへタスク知識を転送する新しいドメイン適応ベース手法を提案する。 提案手法では,複数のソースドメインを用いた事前トレーニングからタスク固有の知識を取り込み,対象ドメインでモデルをテストすることを目的とした,emの新しい設定を提案する。 対象領域におけるゼロショット学習事例を調査し,本手法がemタスクを学習し,対象領域に知識を伝達することを示す。 複数のドメインからターゲットデータセットを微調整し、EMの最先端手法よりもモデルが一般化できることを実証する。

Entity matching (EM) identifies data records that refer to the same real-world entity. Despite the effort in the past years to improve the performance in EM, the existing methods still require a huge amount of labeled data in each domain during the training phase. These methods treat each domain individually, and capture the specific signals for each dataset in EM, and this leads to overfitting on just one dataset. The knowledge that is learned from one dataset is not utilized to better understand the EM task in order to make predictions on the unseen datasets with fewer labeled samples. In this paper, we propose a new domain adaptation-based method that transfers the task knowledge from multiple source domains to a target domain. Our method presents a new setting for EM where the objective is to capture the task-specific knowledge from pretraining our model using multiple source domains, then testing our model on a target domain. We study the zero-shot learning case on the target domain, and demonstrate that our method learns the EM task and transfers knowledge to the target domain. We extensively study fine-tuning our model on the target dataset from multiple domains, and demonstrate that our model generalizes better than state-of-the-art methods in EM.
翻訳日:2022-04-21 15:43:10 公開日:2022-04-20
# 因果モデルを用いた機械学習同定バイオマーカーの一般化:免疫受容体診断法の検討

Improving generalization of machine learning-identified biomarkers with causal modeling: an investigation into immune receptor diagnostics ( http://arxiv.org/abs/2204.09291v1 )

ライセンス: Link先を確認
Milena Pavlovi\'c, Ghadi S. Al Hajj, Johan Pensar, Mollie Wood, Ludvig M. Sollid, Victor Greiff, Geir Kjetil Sandve(参考訳) 機械学習は、高次元の分子データから診断と予後のバイオマーカーを発見するためにますます使われている。 しかしながら、実験設計に関連するさまざまな要因が、一般化可能な臨床応用診断の学習能力に影響を与える可能性がある。 ここでは,因果的視点がこれらの課題の同定を改善し,機械学習に基づく診断の堅牢性と一般化との関係を定式化する。 具体的には,最近確立された高次元バイオマーカーであるadaptive immune receptor repertoires (airrs) に注目した。 本稿では,AIRRドメインの主要な生物学的および実験的要因が学習バイオマーカーにどのように影響するかを論じ,その効果の調整が容易なシミュレーションを提供する。 結論として, 因果モデリングは, 変数間の安定な関係を同定し, 個体群間で変化する関係と変数の調整を導くことにより, 機械学習に基づくバイオマーカーのロバスト性を向上させることを見出した。

Machine learning is increasingly used to discover diagnostic and prognostic biomarkers from high-dimensional molecular data. However, a variety of factors related to experimental design may affect the ability to learn generalizable and clinically applicable diagnostics. Here, we argue that a causal perspective improves the identification of these challenges, and formalizes their relation to the robustness and generalization of machine learning-based diagnostics. To make for a concrete discussion, we focus on a specific, recently established high-dimensional biomarker - adaptive immune receptor repertoires (AIRRs). We discuss how the main biological and experimental factors of the AIRR domain may influence the learned biomarkers and provide easily adjustable simulations of such effects. In conclusion, we find that causal modeling improves machine learning-based biomarker robustness by identifying stable relations between variables and by guiding the adjustment of the relations and variables that vary between populations.
翻訳日:2022-04-21 15:42:51 公開日:2022-04-20
# マルチクラウド構成のための検索手法

Search-based Methods for Multi-Cloud Configuration ( http://arxiv.org/abs/2204.09437v1 )

ライセンス: Link先を確認
Ma{\l}gorzata {\L}azuka, Thomas Parnell, Andreea Anghel, Haralampos Pozidis(参考訳) マルチクラウドコンピューティングは、ベンダーのロックインを避けようとする企業にますます人気になっている。 ほとんどのクラウドプロバイダは同じような機能を提供するが、パフォーマンスやコストの点で大きく異なる可能性がある。 そのような違いの恩恵を享受したい顧客は、当然、マルチクラウド構成の問題を解決する必要がある。ワークロードが与えられたら、どのクラウドプロバイダを選択し、ランタイムやコストを最小限にするためにそのノードをどのように構成すべきか? 本研究では,この最適化問題の解について考察する。 我々は、最先端のクラウド構成ソリューションのマルチクラウド領域への適応性を開発し、評価する。 さらに,マルチクラウド構成と自動機械学習(AutoML)分野においてよく研究される選択構成問題との類似点を同定する。 この接続にインスパイアされた私たちは、AutoMLの一般的なオプティマイザを使用して、マルチクラウド構成を解決する。 最後に,マルチクラウド構成のための新しいアルゴリズムであるCloudBandit(CB)を提案する。 クラウドプロバイダ選択の外部問題を、各アームプルがノード構成の内部問題に対して任意のブラックボックスオプティマイザを実行することに対応する最善のアーム識別問題として扱う。 私たちの実験は (a)多くの最先端クラウド構成ソリューションをマルチクラウドに適用することができ、マルチクラウド構成ドメインの階層構造を利用する適応に対して最もよい結果が得られる。 b) AutoMLの階層的メソッドは、マルチクラウド設定タスクに使用することができ、最先端のクラウド構成ソリューションよりもパフォーマンスがよい。 (c)CBは他の試験アルゴリズムと比較して競争力や後悔度が低く、一方、65%の中央値コストと20%の中間値時間を持つ構成はランダムなプロバイダや構成を選択するよりも低い。

Multi-cloud computing has become increasingly popular with enterprises looking to avoid vendor lock-in. While most cloud providers offer similar functionality, they may differ significantly in terms of performance and/or cost. A customer looking to benefit from such differences will naturally want to solve the multi-cloud configuration problem: given a workload, which cloud provider should be chosen and how should its nodes be configured in order to minimize runtime or cost? In this work, we consider solutions to this optimization problem. We develop and evaluate possible adaptations of state-of-the-art cloud configuration solutions to the multi-cloud domain. Furthermore, we identify an analogy between multi-cloud configuration and the selection-configuration problems commonly studied in the automated machine learning (AutoML) field. Inspired by this connection, we utilize popular optimizers from AutoML to solve multi-cloud configuration. Finally, we propose a new algorithm for solving multi-cloud configuration, CloudBandit (CB). It treats the outer problem of cloud provider selection as a best-arm identification problem, in which each arm pull corresponds to running an arbitrary black-box optimizer on the inner problem of node configuration. Our experiments indicate that (a) many state-of-the-art cloud configuration solutions can be adapted to multi-cloud, with best results obtained for adaptations which utilize the hierarchical structure of the multi-cloud configuration domain, (b) hierarchical methods from AutoML can be used for the multi-cloud configuration task and can outperform state-of-the-art cloud configuration solutions and (c) CB achieves competitive or lower regret relative to other tested algorithms, whilst also identifying configurations that have 65% lower median cost and 20% lower median time in production, compared to choosing a random provider and configuration.
翻訳日:2022-04-21 15:42:34 公開日:2022-04-20
# 単純な注意ネットワーク

Simplicial Attention Networks ( http://arxiv.org/abs/2204.09455v1 )

ライセンス: Link先を確認
Christopher Wei Jin Goh, Cristian Bodnar, Pietro Li\`o(参考訳) グラフ表現学習法は主にノードワイズ相互作用のモデリングに限られている。 近年,グラフニューラルネットワーク(GNN)の複合空間における学習能力を高めるために,高次構造をどのように活用できるかを理解することへの関心が高まっている。 SNN(Simplicial Neural Networks)は、グラフの高次元一般化であるsimplicial Complex上でメッセージパッシングを行うことによって、これらの相互作用を自然にモデル化する。 それでも、現存するほとんどのSNNによって実行される計算は、複合体の組合せ構造に厳密に結びついている。 構造化ドメインにおける注意機構の成功を生かしたSimplicial Attention Networks (SAT) は,近隣のsimplicial間の相互作用を動的に評価し,新しい構造に容易に適応できる,新しいタイプのsimplicial Networksを提案する。 さらに、(コ)鎖錯体上で動くモデルにとって望ましい性質であるSAT配向を同変させる符号付きアテンション機構を提案する。 SATは、既存の畳み込みSNNとGNNを2つの画像および軌道分類タスクで上回ることを示す。

Graph representation learning methods have mostly been limited to the modelling of node-wise interactions. Recently, there has been an increased interest in understanding how higher-order structures can be utilised to further enhance the learning abilities of graph neural networks (GNNs) in combinatorial spaces. Simplicial Neural Networks (SNNs) naturally model these interactions by performing message passing on simplicial complexes, higher-dimensional generalisations of graphs. Nonetheless, the computations performed by most existent SNNs are strictly tied to the combinatorial structure of the complex. Leveraging the success of attention mechanisms in structured domains, we propose Simplicial Attention Networks (SAT), a new type of simplicial network that dynamically weighs the interactions between neighbouring simplicies and can readily adapt to novel structures. Additionally, we propose a signed attention mechanism that makes SAT orientation equivariant, a desirable property for models operating on (co)chain complexes. We demonstrate that SAT outperforms existent convolutional SNNs and GNNs in two image and trajectory classification tasks.
翻訳日:2022-04-21 15:42:08 公開日:2022-04-20
# 物理フィードフォワードニューラルネットワークにおけるノイズ緩和戦略

Noise mitigation strategies in physical feedforward neural networks ( http://arxiv.org/abs/2204.09461v1 )

ライセンス: Link先を確認
Nadezhda Semenova and Daniel Brunner(参考訳) 物理的なニューラルネットワークは、次世代の人工知能ハードウェアの候補として有望だ。 このようなアーキテクチャでは、ニューロンと接続は物理的に実現され、デジタル、すなわち事実上無限の信号対雑音比デジタル概念を活用しない。 したがって、ノイズの傾向があり、ベースドン分析の導出により、接続トポロジ、ゴーストニューロン、およびノイズ緩和戦略としてのプールが導入される。 最後に,mnist手書き文字を完全訓練したニューラルネットワークを用いて,組み合わせ手法の有効性を示す。

Physical neural networks are promising candidates for next generation artificial intelligence hardware. In such architectures, neurons and connections are physically realized and do not leverage digital, i.e. practically infinite signal-to-noise ratio digital concepts. They therefore are prone to noise, and base don analytical derivations we here introduce connectivity topologies, ghost neurons as well as pooling as noise mitigation strategies. Finally, we demonstrate the effectiveness of the combined methods based on a fully trained neural network classifying the MNIST handwritten digits.
翻訳日:2022-04-21 15:41:51 公開日:2022-04-20
# バックドアで説明可能な機械学習

Backdooring Explainable Machine Learning ( http://arxiv.org/abs/2204.09498v1 )

ライセンス: Link先を確認
Maximilian Noppel and Lukas Peter and Christian Wressnegger(参考訳) 説明可能な機械学習は、学習ベースのシステムを分析および理解する上で大きな可能性を秘めている。 しかし、これらの手法は不利な説明を提示するために操作され、強力でステルスな敵を生じさせる。 本稿では,機械学習モデルに対する現在進行中の攻撃を完全に偽装できるブラインド攻撃を実演する。 ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。 これにより、敵はトリガーの存在を隠したり、説明を入力の全く異なる部分に向けたり、赤いニシンを投げたりすることができる。 画像領域の異なる説明タイプに対するこのような攻撃の異なる出現を解析し,マルウェア分類に対するレッドヒーリング攻撃を再開する。

Explainable machine learning holds great potential for analyzing and understanding learning-based systems. These methods can, however, be manipulated to present unfaithful explanations, giving rise to powerful and stealthy adversaries. In this paper, we demonstrate blinding attacks that can fully disguise an ongoing attack against the machine learning model. Similar to neural backdoors, we modify the model's prediction upon trigger presence but simultaneously also fool the provided explanation. This enables an adversary to hide the presence of the trigger or point the explanation to entirely different portions of the input, throwing a red herring. We analyze different manifestations of such attacks for different explanation types in the image domain, before we resume to conduct a red-herring attack against malware classification.
翻訳日:2022-04-21 15:41:43 公開日:2022-04-20
# 光の変動にロバストな対数形態的ニューラルネット

Logarithmic Morphological Neural Nets robust to lighting variations ( http://arxiv.org/abs/2204.09319v1 )

ライセンス: Link先を確認
Guillaume Noyel (LHC), Emile Barbier--Renard (LHC), Michel Jourlin (LHC), Thierry Fournel (LHC)(参考訳) 形態的ニューラルネットワークは、所望の出力画像を知る構造関数の重みを学習することができる。 しかし、これらのネットワークは光強度の変化などの光学的原因のある画像の光の変動に対して本質的に堅牢ではない。 本稿では,照明変動に対するロバスト性を有するモルフォロジーニューラルネットワークを提案する。 これは最近の対数数学的形態学(lmm)の枠組み、すなわち対数画像処理(lip)モデルで定義される数学的形態学に基づいている。 このモデルは、光強度の変動を画像でシミュレートするLIP加算法則を持つ。 特にこれらの変動に頑健なLMM演算子の構造関数、すなわちLIP-加法的アスプルンド距離の写像を学習する。 画像の結果,ニューラルネットワークが要求する特性を検証することがわかった。

Morphological neural networks allow to learn the weights of a structuring function knowing the desired output image. However, those networks are not intrinsically robust to lighting variations in images with an optical cause, such as a change of light intensity. In this paper, we introduce a morphological neural network which possesses such a robustness to lighting variations. It is based on the recent framework of Logarithmic Mathematical Morphology (LMM), i.e. Mathematical Morphology defined with the Logarithmic Image Processing (LIP) model. This model has a LIP additive law which simulates in images a variation of the light intensity. We especially learn the structuring function of a LMM operator robust to those variations, namely : the map of LIP-additive Asplund distances. Results in images show that our neural network verifies the required property.
翻訳日:2022-04-21 15:39:32 公開日:2022-04-20
# 制約付き単調変分不等式に対する超勾配法のタイトなラストイテレート収束

Tight Last-Iterate Convergence of the Extragradient Method for Constrained Monotone Variational Inequalities ( http://arxiv.org/abs/2204.09228v1 )

ライセンス: Link先を確認
Yang Cai, Argyris Oikonomou, Weiqiang Zheng(参考訳) 単調変分不等式は、滑らかな凸最適化、2プレイヤーゼロサムゲーム、凸凹サドル点問題など、多くの重要な設定を統一し一般化する数学的プログラミングにおける中心的な問題である。 コルペレヴィチ [1976] による過次法は、単調変分不等式を解く最も一般的な方法の1つである。 その長い歴史と最適化と機械学習コミュニティからの注目にもかかわらず、次の大きな問題は未解決のままである。 制約付きモノトンとリプシッツの変分不等式に対する過次法の最後の点収束速度は? 我々は、任意の凸可能集合に対する厳密な$O\left(\frac{1}{\sqrt{T}}\right)$ last-iterate convergence rate を示すことで、この開問題を解決している。 [2020]. 我々の速度は標準ギャップ関数によって測定される。 この結果の技術的核心は、新しいパフォーマンス尺度である接残差のモノトニック性であり、これは局所的な制約を考慮に入れた演算子の規範の適応と見なすことができる。 単調性を確立するために,超次法の更新規則の低次元性と2乗計画の総和のパワーを組み合わせた新しい手法を開発した。 提案手法は反復的手法の解析に多くの応用があると考えている。

The monotone variational inequality is a central problem in mathematical programming that unifies and generalizes many important settings such as smooth convex optimization, two-player zero-sum games, convex-concave saddle point problems, etc. The extragradient method by Korpelevich [1976] is one of the most popular methods for solving monotone variational inequalities. Despite its long history and intensive attention from the optimization and machine learning community, the following major problem remains open. What is the last-iterate convergence rate of the extragradient method for monotone and Lipschitz variational inequalities with constraints? We resolve this open problem by showing a tight $O\left(\frac{1}{\sqrt{T}}\right)$ last-iterate convergence rate for arbitrary convex feasible sets, which matches the lower bound by Golowich et al. [2020]. Our rate is measured in terms of the standard gap function. The technical core of our result is the monotonicity of a new performance measure -- the tangent residual, which can be viewed as an adaptation of the norm of the operator that takes the local constraints into account. To establish the monotonicity, we develop a new approach that combines the power of the sum-of-squares programming with the low dimensionality of the update rule of the extragradient method. We believe our approach has many additional applications in the analysis of iterative methods.
翻訳日:2022-04-21 15:39:20 公開日:2022-04-20
# データ駆動型自動重ね合わせ法とソフトマター科学への応用

A Data-Driven Method for Automated Data Superposition with Applications in Soft Matter Science ( http://arxiv.org/abs/2204.09521v1 )

ライセンス: Link先を確認
Kyle R. Lennon, Gareth H. McKinley, James W. Swan(参考訳) 内部パラメトリックな自己相似性を持つデータセットの重ね合わせは、物理科学における様々な種類の実験データを分析するための長年にわたる技術である。 通常、この重ね合わせは手動で行われ、最近ではいくつかの自動アルゴリズムの1つである。 しかし、これらの方法は本質的にヒューリスティックであり、手動のデータシフトやパラメータ化によってユーザのバイアスになりがちであり、データと重ね合わせされたデータのモデルの両方における不確実性を扱うためのネイティブフレームワークが欠如している。 本研究では,任意の座標変換を用いて実験データを重畳するデータ駆動型非パラメトリック法を開発し,ガウス過程回帰を用いてデータを記述する統計モデルを学び,最大後続推定値を用いてデータセットを最適重畳する。 この統計フレームワークは実験ノイズに対して堅牢であり、学習された座標変換に対する不確実性推定を自動的に生成する。 さらに、ブラックボックス機械学習とは、その解釈可能性において区別され、具体的には、研究中のシステムに対する洞察を得るために尋問されるモデルを生成する。 本手法の特徴を,ソフトマテリアルの力学を特徴付ける4つの代表的なデータセットに適用して実証する。 いずれの場合も,本手法は他の手法を用いて得られた結果を再現するが,バイアスの低減と不確実性推定の付加が可能である。 この方法では、様々な分野にわたる自己相似データの標準化された統計処理を可能にし、材料分類、設計、発見などの応用を知らせる解釈可能なデータ駆動モデルを生成する。

The superposition of data sets with internal parametric self-similarity is a longstanding and widespread technique for the analysis of many types of experimental data across the physical sciences. Typically, this superposition is performed manually, or recently by one of a few automated algorithms. However, these methods are often heuristic in nature, are prone to user bias via manual data shifting or parameterization, and lack a native framework for handling uncertainty in both the data and the resulting model of the superposed data. In this work, we develop a data-driven, non-parametric method for superposing experimental data with arbitrary coordinate transformations, which employs Gaussian process regression to learn statistical models that describe the data, and then uses maximum a posteriori estimation to optimally superpose the data sets. This statistical framework is robust to experimental noise, and automatically produces uncertainty estimates for the learned coordinate transformations. Moreover, it is distinguished from black-box machine learning in its interpretability -- specifically, it produces a model that may itself be interrogated to gain insight into the system under study. We demonstrate these salient features of our method through its application to four representative data sets characterizing the mechanics of soft materials. In every case, our method replicates results obtained using other approaches, but with reduced bias and the addition of uncertainty estimates. This method enables a standardized, statistical treatment of self-similar data across many fields, producing interpretable data-driven models that may inform applications such as materials classification, design, and discovery.
翻訳日:2022-04-21 15:38:55 公開日:2022-04-20
# Clotho-AQA: 音声質問応答のためのクラウドソーシングデータセット

Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering ( http://arxiv.org/abs/2204.09634v1 )

ライセンス: Link先を確認
Samuel Lipping, Parthasaarathy Sudarsanam, Konstantinos Drossos, Tuomas Virtanen(参考訳) 音声質問応答(audio question answering, aqa)は、システムが音声信号と自然言語質問を分析し、望ましい自然言語応答を生成するマルチモーダル翻訳タスクである。 本稿では,Closo データセット [1] から選択した15秒から30秒間,1991 の音声ファイルからなる音声質問応答用データセットである Clotho-AQA を紹介する。 各オーディオファイルに対して,Amazon Mechanical Turkを用いたクラウドソーシングによって6つの質問とそれに対応する回答を収集する。 質問と答えは異なるアノテーションによって生成される。 それぞれの音声に対する6つの質問のうち、2つの質問は「yes」と「no」を答えとして設計され、残りの2つの質問は他の1単語の答えを持つ。 各質問に対して、3つの異なるアノテータから回答を収集する。 また,AQAタスクにおけるデータセットの利用を記述するためのベースライン実験として,'yes'型や'no'型に対するLSTMベースのマルチモーダルバイナリ分類器と,828語に対するLSTMベースのマルチモーダルクラス分類器を提案する。 バイナリ分類器は62.7%、マルチクラス分類器は54.2%のtop-1精度と93.7%のtop-5精度を達成した。 Clotho-AQAデータセットはhttps://zenodo.org/record/6473207.comで無料で公開されている。

Audio question answering (AQA) is a multimodal translation task where a system analyzes an audio signal and a natural language question, to generate a desirable natural language answer. In this paper, we introduce Clotho-AQA, a dataset for Audio question answering consisting of 1991 audio files each between 15 to 30 seconds in duration selected from the Clotho dataset [1]. For each audio file, we collect six different questions and corresponding answers by crowdsourcing using Amazon Mechanical Turk. The questions and answers are produced by different annotators. Out of the six questions for each audio, two questions each are designed to have 'yes' and 'no' as answers, while the remaining two questions have other single-word answers. For each question, we collect answers from three different annotators. We also present two baseline experiments to describe the usage of our dataset for the AQA task - an LSTM-based multimodal binary classifier for 'yes' or 'no' type answers and an LSTM-based multimodal multi-class classifier for 828 single-word answers. The binary classifier achieved an accuracy of 62.7% and the multi-class classifier achieved a top-1 accuracy of 54.2% and a top-5 accuracy of 93.7%. Clotho-AQA dataset is freely available online at https://zenodo.org/record/6473207.
翻訳日:2022-04-21 15:36:58 公開日:2022-04-20
# (参考訳) 独立スプリットによる分類器再学習によるグループロバスト性の改善

Improved Worst-Group Robustness via Classifier Retraining on Independent Splits ( http://arxiv.org/abs/2204.09583v1 )

ライセンス: CC BY 4.0
Thien Hang Nguyen, Hongyang R. Zhang, Huy Le Nguyen(参考訳) 経験的リスク最小化(ERM)で訓練されたDNN(High-Capacity Deep Neural Network)は、平均的なパフォーマンスにもかかわらず、最悪のグループ精度が低い場合が多い。 ERM訓練DNNの鮮明な相関と暗記挙動は、典型的にはこの性能低下に起因する。 我々は、データセットの独立分割に基づいて頑健な分類器の再訓練を行うことにより、これらの問題に対処するCRISと呼ばれる手法を開発した。 この結果、グループDROのような最先端の手法を標準データセットで改善し、グループラベルをはるかに少なくし、ハイパーパラメータチューニングをほとんど追加しない単純な方法が得られた。

High-capacity deep neural networks (DNNs) trained with Empirical Risk Minimization (ERM) often suffer from poor worst-group accuracy despite good on-average performance, where worst-group accuracy measures a model's robustness towards certain subpopulations of the input space. Spurious correlations and memorization behaviors of ERM trained DNNs are typically attributed to this degradation in performance. We develop a method, called CRIS, that address these issues by performing robust classifier retraining on independent splits of the dataset. This results in a simple method that improves upon state-of-the-art methods, such as Group DRO, on standard datasets while relying on much fewer group labels and little additional hyperparameter tuning.
翻訳日:2022-04-21 15:35:43 公開日:2022-04-20
# 双極子変換器による空間時間機能脳ネットワークの遠ざかる

Disentangling Spatial-Temporal Functional Brain Networks via Twin-Transformers ( http://arxiv.org/abs/2204.09225v1 )

ライセンス: Link先を確認
Xiaowei Yu, Lu Zhang, Lin Zhao, Yanjun Lyu, Tianming Liu, Dajiang Zhu(参考訳) 機能的脳ネットワーク(bn)の同定と特徴付けは、脳組織アーキテクチャのメカニズムに関するシステムレベルの洞察を得ることが基本である。 現在の機能的磁気共鳴(fMRI)分析は、空間的(静止状態ネットワークなど)または時間的(タスク刺激など)領域における特定のパターンの事前知識に依存している。 さらに、ほとんどのアプローチはグループ毎の共通機能ネットワークを見つけることを目的としており、個々の機能ネットワークの研究はほとんど行われていない。 本研究では,空間空間と時間空間の両方において共通かつ個々の機能的ネットワークを同時に自己管理的に推定する新しいツイントランスフォーマーフレームワークを提案する。 第1変圧器は、空間分割情報を入力として、空間特徴を生成し、第2変圧器は時間関連情報を入力として、時間的特徴を出力する。 空間的および時間的特徴はさらに、相互作用(重みの共有)と2つのトランス間の制約によって、共通および個別に分離される。 我々はTwinTransformersをHuman Connectome Project(HCP)の運動タスクfMRIデータセットに適用し、タスク関連ネットワークと安静状態ネットワーク(デフォルトモードネットワークなど)を含む複数の共通脳ネットワークを特定した。 興味深いことに、タスク刺激とは関係なく、個々のレベルでのみ存在する個々のネットワークの集合を回収することに成功した。

How to identify and characterize functional brain networks (BN) is fundamental to gain system-level insights into the mechanisms of brain organizational architecture. Current functional magnetic resonance (fMRI) analysis highly relies on prior knowledge of specific patterns in either spatial (e.g., resting-state network) or temporal (e.g., task stimulus) domain. In addition, most approaches aim to find group-wise common functional networks, individual-specific functional networks have been rarely studied. In this work, we propose a novel Twin-Transformers framework to simultaneously infer common and individual functional networks in both spatial and temporal space, in a self-supervised manner. The first transformer takes space-divided information as input and generates spatial features, while the second transformer takes time-related information as input and outputs temporal features. The spatial and temporal features are further separated into common and individual ones via interactions (weights sharing) and constraints between the two transformers. We applied our TwinTransformers to Human Connectome Project (HCP) motor task-fMRI dataset and identified multiple common brain networks, including both task-related and resting-state networks (e.g., default mode network). Interestingly, we also successfully recovered a set of individual-specific networks that are not related to task stimulus and only exist at the individual level.
翻訳日:2022-04-21 15:14:20 公開日:2022-04-20
# 多視点ユーザモデリングを用いたユーザ中心会話推薦

User-Centric Conversational Recommendation with Multi-Aspect User Modeling ( http://arxiv.org/abs/2204.09263v1 )

ライセンス: Link先を確認
Shuokai Li, Ruobing Xie, Yongchun Zhu, Xiang Ao, Fuzhen Zhuang, Qing He(参考訳) 会話推薦システム(CRS)は,会話において高品質なレコメンデーションを提供することを目的としている。 しかし、従来のCRSモデルは、主に現在のセッションの対話理解に焦点をあてており、他のリッチなマルチアスペクト情報(すなわち、ユーザ)を無視して推奨している。 本研究では,crsにおける現在の対話セッションの他に,ユーザの履歴対話セッションやルックアライクなユーザもユーザの嗜好の源となっていることを強調する。 マルチアスペクト情報を体系的にモデル化するために,CRSタスクにおけるユーザ嗜好学習の本質に回帰するユーザ中心会話推薦(UCCR)モデルを提案する。 具体的には,現在の選好信号の補足として,知識,意味,消費からユーザの多視点選好を捉えた履歴セッション学習器を提案する。 複数視点の選好マッパーを用いて,現在および歴史的セッションにおける各視点の内在的相関を自己指導的目的により学習する。 また,類似ユーザを介してユーザを理解するために,時間的ルックアライクなユーザセレクタも設計する。 学習したマルチアスペクトのマルチビューユーザ嗜好は、レコメンデーションと対話生成に使用される。 実験では、中国語と英語のCRSデータセットを総合的に評価する。 レコメンデーションおよび対話生成における競合モデルに対する顕著な改善は、UCCRの優位性を検証する。

Conversational recommender systems (CRS) aim to provide highquality recommendations in conversations. However, most conventional CRS models mainly focus on the dialogue understanding of the current session, ignoring other rich multi-aspect information of the central subjects (i.e., users) in recommendation. In this work, we highlight that the user's historical dialogue sessions and look-alike users are essential sources of user preferences besides the current dialogue session in CRS. To systematically model the multi-aspect information, we propose a User-Centric Conversational Recommendation (UCCR) model, which returns to the essence of user preference learning in CRS tasks. Specifically, we propose a historical session learner to capture users' multi-view preferences from knowledge, semantic, and consuming views as supplements to the current preference signals. A multi-view preference mapper is conducted to learn the intrinsic correlations among different views in current and historical sessions via self-supervised objectives. We also design a temporal look-alike user selector to understand users via their similar users. The learned multi-aspect multi-view user preferences are then used for the recommendation and dialogue generation. In experiments, we conduct comprehensive evaluations on both Chinese and English CRS datasets. The significant improvements over competitive models in both recommendation and dialogue generation verify the superiority of UCCR.
翻訳日:2022-04-21 15:13:53 公開日:2022-04-20
# 創発的知性を高める大規模ツインニング

Massive Twinning to Enhance Emergent Intelligence ( http://arxiv.org/abs/2204.09316v1 )

ライセンス: Link先を確認
Siyu Yuan, Bin Han, Dennis Krummacker, and Hans D. Schotten(参考訳) 6G時代の未来の産業用インターネットは、人工知能(AI)とデジタルツイン(DT)をユビキタスに展開することが期待されている。 従来のaiソリューションを補完するものとして、emergent intelligence(ei)には、堅牢性、プライバシ保護、スケーラビリティなど、さまざまな特徴があり、6g iiotアプリケーションと競合する。 しかし、計算の複雑さは低いものの、大規模なデプロイメントにおけるデータトラフィックの高需要が課題となっている。 本稿では,EIにおけるデータトラフィックを削減し,その性能を向上させるために,6Gがサポートする大規模ツインニングパラダイムを活用することを提案する。

Future Industrial Internet-of-Things in the upcoming 6G era is expected to deploy artificial intelligence (AI) and digital twins (DTs) ubiquitously. As a complement to conventional AI solutions, emergent intelligence (EI) exhibits various outstanding features including robustness, protection to privacy, and scalability, which makes it competitive for 6G IIoT applications. However, despite its low computational complexity, it is challenged by its high demand of data traffic in massive deployment. In this paper, we propose to exploit the massive twinning paradigm, which 6G is envisaged to support, to reduce the data traffic in EI and therewith enhance its performance.
翻訳日:2022-04-21 15:13:34 公開日:2022-04-20
# 知的財産のプロファイリングと進化

Profiling and Evolution of Intellectual Property ( http://arxiv.org/abs/2204.09333v1 )

ライセンス: Link先を確認
Bowen Yu and Yingxia Shao and Ang Li(参考訳) 近年、インターネットデータの急速な成長に伴い、科学技術資源の数や種類も急速に拡大している。 しかし、情報データの数とカテゴリの増加は、情報取得のコストを増加させる。 技術系企業又はユーザに対しては,一般論文,特許等に加えて,技術又はその産業の発展に関する政策も,科学及び技術資源の種類に属するべきである。 ユーザ獲得のコストと難しさ。 膨大な量のデータから貴重な科学・技術政策資源を抽出し、正確かつ迅速な検索を提供することは、情報障壁を壊し、社会的意義と社会的有用性を持つ情報獲得のコストを削減するのに役立つ。 本稿では,科学技術政策における困難と課題に注目し,関連する技術と発展を紹介する。

In recent years, with the rapid growth of Internet data, the number and types of scientific and technological resources are also rapidly expanding. However, the increase in the number and category of information data will also increase the cost of information acquisition. For technology-based enterprises or users, in addition to general papers, patents, etc., policies related to technology or the development of their industries should also belong to a type of scientific and technological resources. The cost and difficulty of acquiring users. Extracting valuable science and technology policy resources from a huge amount of data with mixed contents and providing accurate and fast retrieval will help to break down information barriers and reduce the cost of information acquisition, which has profound social significance and social utility. This article focuses on the difficulties and problems in the field of science and technology policy, and introduces related technologies and developments.
翻訳日:2022-04-21 15:13:21 公開日:2022-04-20
# クロススティッチ型マルチモーダルエンコーダ

Cross-stitched Multi-modal Encoders ( http://arxiv.org/abs/2204.09227v1 )

ライセンス: Link先を確認
Karan Singla, Daniel Pressel, Ryan Price, Bhargav Srinivas Chinnari, Yeon-Jun Kim, Srinivas Bangalore(参考訳) 本稿では,マルチモーダル音声とテキスト入力のための新しいアーキテクチャを提案する。 マルチヘッドクロスモーダルアテンションを用いた事前学習音声とテキストエンコーダを併用し,目標問題に対して協調微調整を行う。 結果のアーキテクチャは、連続トークンレベルの分類や、同時テキストと音声に作用する発話レベルの予測に使用できる。 結果エンコーダは音響韻律情報と語彙情報の両方を効率よくキャプチャする。 マルチモーダル発話レベル分類におけるマルチヘッドアテンションベース融合の利点を,プレプール,モダリティ特化表現の単純な結合と比較した。 私たちのモデルアーキテクチャはコンパクトでリソース効率が高く、単一のコンシューマGPUカードでトレーニングすることができます。

In this paper, we propose a novel architecture for multi-modal speech and text input. We combine pretrained speech and text encoders using multi-headed cross-modal attention and jointly fine-tune on the target problem. The resultant architecture can be used for continuous token-level classification or utterance-level prediction acting on simultaneous text and speech. The resultant encoder efficiently captures both acoustic-prosodic and lexical information. We compare the benefits of multi-headed attention-based fusion for multi-modal utterance-level classification against a simple concatenation of pre-pooled, modality-specific representations. Our model architecture is compact, resource efficient, and can be trained on a single consumer GPU card.
翻訳日:2022-04-21 15:12:27 公開日:2022-04-20
# 視覚慣性初期化における単眼深度の事前学習

Learned Monocular Depth Priors in Visual-Inertial Initialization ( http://arxiv.org/abs/2204.09171v1 )

ライセンス: Link先を確認
Yunwen Zhou, Abhishek Kar, Eric Turner, Adarsh Kowdle, Chao X. Guo, Ryan C. DuToit, Konstantine Tsotsos(参考訳) 視覚慣性オドメトリー(VIO)は、今日のほとんどのAR/VRおよび自律ロボットシステムの、アカデミックと産業の両方において、ポーズ推定バックボーンである。 しかし、これらのシステムはセンサーバイアス、重力方向、メートル法スケールなどの重要なパラメータの初期化に非常に敏感である。 高パララックスや可変加速度の仮定が滅多に満たない現実のシナリオ(例えば、ホバリング空中ロボット、スマートフォンのarユーザが携帯電話をいじらないような)では、古典的な視覚慣性初期化の定式化はしばしば不条件化され、あるいは意味的に収束しない。 本稿では,これらの低励起シナリオを対象とした視覚慣性初期化を目標とする。 本稿では,従来の視覚慣性構造(SfM)の初期化の限界を回避するために,新たな学習ベース測定を高次入力として取り入れることを提案する。 学習した単眼深度画像(単眼深度)を利用して特徴の相対的深度を制約し,そのスケールとシフトを最適化することにより,単眼深度をメートル法スケールにアップグレードする。 本実験は,視覚慣性初期化の古典的定式化と比較して,問題条件付けの大幅な改善を示し,特に動作制限シナリオにおいて,公的なベンチマークに対する最先端の精度と堅牢性の向上を示す。 さらに,この改良を既存のオドメトリシステムの実装にも拡張し,改良した初期化手法が追跡軌跡に与える影響を明らかにした。

Visual-inertial odometry (VIO) is the pose estimation backbone for most AR/VR and autonomous robotic systems today, in both academia and industry. However, these systems are highly sensitive to the initialization of key parameters such as sensor biases, gravity direction, and metric scale. In practical scenarios where high-parallax or variable acceleration assumptions are rarely met (e.g. hovering aerial robot, smartphone AR user not gesticulating with phone), classical visual-inertial initialization formulations often become ill-conditioned and/or fail to meaningfully converge. In this paper we target visual-inertial initialization specifically for these low-excitation scenarios critical to in-the-wild usage. We propose to circumvent the limitations of classical visual-inertial structure-from-motion (SfM) initialization by incorporating a new learning-based measurement as a higher-level input. We leverage learned monocular depth images (mono-depth) to constrain the relative depth of features, and upgrade the mono-depth to metric scale by jointly optimizing for its scale and shift. Our experiments show a significant improvement in problem conditioning compared to a classical formulation for visual-inertial initialization, and demonstrate significant accuracy and robustness improvements relative to the state-of-the-art on public benchmarks, particularly under motion-restricted scenarios. We further extend this improvement to implementation within an existing odometry system to illustrate the impact of our improved initialization method on resulting tracking trajectories.
翻訳日:2022-04-21 15:11:58 公開日:2022-04-20
# (参考訳) THORN:行動認識のための時間的人間オブジェクト関係ネットワーク

THORN: Temporal Human-Object Relation Network for Action Recognition ( http://arxiv.org/abs/2204.09468v1 )

ライセンス: CC BY 4.0
Mohammed Guermal, Rui Dai, and Francois Bremond(参考訳) ほとんどの行動認識モデルは人間の行動を単一事象として扱う。 しかし、人間の活動は特定の階層に従うことが多い。 実際、人間の活動の多くは構成的です。 また、これらのアクションは、ほとんどが人間とオブジェクトのインタラクションです。 本稿では,行動を定義する一連の相互作用を利用して,人間の行動を認識することを提案する。 本研究では,人間と物体の相互作用を利用して行動を予測する,エンドツーエンドネットワークTHORNを提案する。 このモデルは3Dバックボーンネットワーク上に構築されている。 私たちのモデルのキーとなるコンポーネントは 1) オブジェクトをモデル化するためのオブジェクト表現フィルタ。 2)オブジェクト関係をキャプチャするオブジェクト関係推論モジュール。 3) アクションラベルを予測するための分類層。 THORNの堅牢性を示すため,EPIC-Kitchen55とEGTEA Gaze+で評価した。 THORNは、両方のデータセットで最先端のパフォーマンスを達成する。

Most action recognition models treat human activities as unitary events. However, human activities often follow a certain hierarchy. In fact, many human activities are compositional. Also, these actions are mostly human-object interactions. In this paper we propose to recognize human action by leveraging the set of interactions that define an action. In this work, we present an end-to-end network: THORN, that can leverage important human-object and object-object interactions to predict actions. This model is built on top of a 3D backbone network. The key components of our model are: 1) An object representation filter for modeling object. 2) An object relation reasoning module to capture object relations. 3) A classification layer to predict the action labels. To show the robustness of THORN, we evaluate it on EPIC-Kitchen55 and EGTEA Gaze+, two of the largest and most challenging first-person and human-object interaction datasets. THORN achieves state-of-the-art performance on both datasets.
翻訳日:2022-04-21 15:09:32 公開日:2022-04-20
# モラルストーリーの理解と生成のためのコーパス

A Corpus for Understanding and Generating Moral Stories ( http://arxiv.org/abs/2204.09438v1 )

ライセンス: Link先を確認
Jian Guan, Ziqi Liu, Minlie Huang(参考訳) モラルを教えることはストーリーテリングの最も重要な目的の1つである。 道徳的物語を理解し書きする上で不可欠な能力は、ストーリー・プロットと暗黙の道徳をブリッジすることである。 主な課題は,(1)モラルにおける抽象概念に関する知識の把握,(2)物語における物語間の会話関係の獲得,(3)善行や悪行に関する物語や道徳の価値選好の整合である。 本稿では,機械の能力を評価するための2つの理解課題と2つの世代の課題を提案する。 我々は、中国語と英語で書かれた道徳的物語の新しいデータセットであるSTORALを紹介する。 本研究では,STORALの自動評価と手動評価による各種モデルの検証により,提案課題の難しさを示す。 さらに,これらのタスクの性能向上のための追加ガイダンスとして,学習セットにおける関連する概念やイベントを効果的に活用する検索拡張アルゴリズムを提案する。

Teaching morals is one of the most important purposes of storytelling. An essential ability for understanding and writing moral stories is bridging story plots and implied morals. Its challenges mainly lie in: (1) grasping knowledge about abstract concepts in morals, (2) capturing inter-event discourse relations in stories, and (3) aligning value preferences of stories and morals concerning good or bad behavior. In this paper, we propose two understanding tasks and two generation tasks to assess these abilities of machines. We present STORAL, a new dataset of Chinese and English human-written moral stories. We show the difficulty of the proposed tasks by testing various models with automatic and manual evaluation on STORAL. Furthermore, we present a retrieval-augmented algorithm that effectively exploits related concepts or events in training sets as additional guidance to improve performance on these tasks.
翻訳日:2022-04-21 14:53:00 公開日:2022-04-20
# オープンエンドテキスト生成のためのイベント遷移計画

Event Transition Planning for Open-ended Text Generation ( http://arxiv.org/abs/2204.09453v1 )

ライセンス: Link先を確認
Qintong Li, Piji Li, Wei Bi, Zhaochun Ren, Yuxuan Lai, Lingpeng Kong(参考訳) 対話生成やストーリーコンプリートのようなオープンエンドテキスト生成タスクは、先行した文脈に制限されたコヒーレントな継続を生成するモデルを必要とする。 これらのタスクのオープンな性質は、近年のニューラル自動回帰テキストジェネレータに新たな課題をもたらしている。 これらのニューラルモデルは人間のようなテキストを生成するのに長けているが、与えられた事実とそれに続く事象の間の因果関係を整理することは困難である。 このギャップを埋めるために,オープンエンドテキスト生成で発生するイベントを明示的にアレンジする新しい二段階法を提案する。 このアプローチは、イベントトランジションプランナーが「クール」なプロットスケルトンを提供し、第2段階でテキストジェネレータがスケルトンを洗練する特別に訓練された粗いto-fineアルゴリズムとして理解することができる。 2つのオープンエンドテキスト生成タスクの実験により,提案手法は生成したテキストの品質,特にコヒーレンスと多様性を効果的に向上することを示した。 コードは: \url{https://github.com/qtli/EventPlanforTextGen}で利用可能である。

Open-ended text generation tasks, such as dialogue generation and story completion, require models to generate a coherent continuation given limited preceding context. The open-ended nature of these tasks brings new challenges to the neural auto-regressive text generators nowadays. Despite these neural models are good at producing human-like text, it is difficult for them to arrange causalities and relations between given facts and possible ensuing events. To bridge this gap, we propose a novel two-stage method which explicitly arranges the ensuing events in open-ended text generation. Our approach can be understood as a specially-trained coarse-to-fine algorithm, where an event transition planner provides a "coarse" plot skeleton and a text generator in the second stage refines the skeleton. Experiments on two open-ended text generation tasks demonstrate that our proposed method effectively improves the quality of the generated text, especially in coherence and diversity. The code is available at: \url{https://github.com/qtli/EventPlanforTextGen}.
翻訳日:2022-04-21 14:52:46 公開日:2022-04-20
# 神経抽象要約法と要約の事実整合性に関する調査研究

A Survey on Neural Abstractive Summarization Methods and Factual Consistency of Summarization ( http://arxiv.org/abs/2204.09519v1 )

ライセンス: Link先を確認
Meng Cao(参考訳) 自動要約(automatic summarization)は、テキストデータの集合を計算的に短縮し、元のテキストで最も重要な情報のサブセット(要約)を作成するプロセスである。 既存の要約方法は、抽出と抽象の2つのタイプに大別できる。 抽出要約器は、ソース文書からテキストスニペット(単語、句、文等)を明示的に選択し、抽象要約器は、ソースで広く普及している最も健全な概念を伝える新規テキストスニペットを生成する。

Automatic summarization is the process of shortening a set of textual data computationally, to create a subset (a summary) that represents the most important pieces of information in the original text. Existing summarization methods can be roughly divided into two types: extractive and abstractive. An extractive summarizer explicitly selects text snippets (words, phrases, sentences, etc.) from the source document, while an abstractive summarizer generates novel text snippets to convey the most salient concepts prevalent in the source.
翻訳日:2022-04-21 14:52:28 公開日:2022-04-20
# 半監督点雲の補修における事前蒸留法

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion ( http://arxiv.org/abs/2204.09186v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Yulin He, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He(参考訳) 現実世界のセンサーでスキャンされた点雲は常に不完全で不規則でノイズが多いため、点雲完了タスクはますます重要になる。 多くのポイントクラウド補完手法が提案されているが、そのほとんどはトレーニングのために大量のペアの完全不完全ポイントクラウドを必要とする。 そこで本研究では, 大規模データセットへの依存を減らすために, 2段階のトレーニング方式を活用し, 再資源化型事前蒸留半教師付きポイントクラウド補完法であるrapdを提案する。 トレーニングステージ1では、リコンストラクション・アウェアプリトレーニングプロセスを使用して、いわゆるディープ・セマンティクス・プリアーを、未ペイド完全および未ペイド不完全点雲の両方から学習する。 トレーニング段階2では,エンコーダデコーダをベースとしたコンプリートネットワークを,少数のペアのトレーニングサンプルのみを用いてネットワークに蒸留することにより,半教師付き事前蒸留プロセスを導入する。 自己教師付き補完モジュールがさらに導入され、多数の未ペア不完全点雲の価値が発掘され、ネットワークの性能が向上する。 いくつかの広く使われているデータセットに対する大規模な実験により、最初の半教師付きポイントクラウド補完法であるRADは、相同性および異種性の両方のシナリオにおいて、以前の手法よりも優れた性能を発揮することが示された。

Point clouds scanned by real-world sensors are always incomplete, irregular, and noisy, making the point cloud completion task become increasingly more important. Though many point cloud completion methods have been proposed, most of them require a large number of paired complete-incomplete point clouds for training, which is labor exhausted. In contrast, this paper proposes a novel Reconstruction-Aware Prior Distillation semi-supervised point cloud completion method named RaPD, which takes advantage of a two-stage training scheme to reduce the dependence on a large-scale paired dataset. In training stage 1, the so-called deep semantic prior is learned from both unpaired complete and unpaired incomplete point clouds using a reconstruction-aware pretraining process. While in training stage 2, we introduce a semi-supervised prior distillation process, where an encoder-decoder-based completion network is trained by distilling the prior into the network utilizing only a small number of paired training samples. A self-supervised completion module is further introduced, excavating the value of a large number of unpaired incomplete point clouds, leading to an increase in the network's performance. Extensive experiments on several widely used datasets demonstrate that RaPD, the first semi-supervised point cloud completion method, achieves superior performance to previous methods on both homologous and heterologous scenarios.
翻訳日:2022-04-21 14:50:20 公開日:2022-04-20
# NTIRE 2022 ステレオ画像の超解像への挑戦:方法と結果

NTIRE 2022 Challenge on Stereo Image Super-Resolution: Methods and Results ( http://arxiv.org/abs/2204.09197v1 )

ライセンス: Link先を確認
Longguang Wang and Yulan Guo and Yingqian Wang and Juncheng Li and Shuhang Gu and Radu Timofte(参考訳) 本稿では,1st ntire challenge on stereo image super- resolution (rerestoration of rich details in a pair of low- resolution stereo images) を,新しい解と結果に焦点をあてて要約する。 この課題は、標準的なbicubic分解下でのステレオ画像の超解像問題を目的とした1トラックである。 合計238人の参加者が登録され、21チームが最終テストフェーズに出場した。 参加者のうち、20チームがベースラインよりも優れたPSNR(RGB)スコアで結果を提出しました。 この課題はステレオ画像SRの新しいベンチマークを確立する。

In this paper, we summarize the 1st NTIRE challenge on stereo image super-resolution (restoration of rich details in a pair of low-resolution stereo images) with a focus on new solutions and results. This challenge has 1 track aiming at the stereo image super-resolution problem under a standard bicubic degradation. In total, 238 participants were successfully registered, and 21 teams competed in the final testing phase. Among those participants, 20 teams successfully submitted results with PSNR (RGB) scores better than the baseline. This challenge establishes a new benchmark for stereo image SR.
翻訳日:2022-04-21 14:49:54 公開日:2022-04-20
# 超画素深部グラフ畳み込みネットワークを用いたSAR画像からの暗斑検出

Dark Spot Detection from SAR Images Based on Superpixel Deeper Graph Convolutional Network ( http://arxiv.org/abs/2204.09230v1 )

ライセンス: Link先を確認
Xiaojian Liu, Yansheng Li(参考訳) 合成開口レーダ(sar)は、海洋表面のオイルスリックを検出するために使用される主要な機器である。 SAR画像では、雨の細胞や腫れ、内部波などの海洋現象に影響された領域や、石油流出からの流出が画像上の暗斑点として現れる。 ダークスポット検出は、石油流出を検知する第一歩であり、その後、石油流出候補となる。 ダークスポットセグメンテーションの精度は、最終的にオイルスリック識別の精度に影響を与える。 リモートセンシング画像セマンティックセグメンテーションにおいて,処理単位としてピクセルを用いる先進的な深層学習手法はよく機能するが,ノイズの多いSAR画像から境界の弱い暗斑を検出することは大きな課題である。 本稿では,スーパーピクセルを処理単位とし,各スーパーピクセルの特徴を抽出するスーパーピクセル深層グラフ畳み込みネットワーク(sgdcn)に基づく暗黒スポット検出手法を提案する。 超画素領域から計算した特徴は固定画素近傍の特徴よりも頑丈である。 学習課題の難易度を低減するため,無関係な特徴を破棄し,最適な特徴のサブセットを得る。 スーパーピクセルセグメンテーションの後、画像はスーパーピクセルをノードとしてグラフに変換し、ノード分類のためにより深いグラフ畳み込みニューラルネットワークに入力される。 このグラフニューラルネットワークは、微分可能な集約関数を使用して、ノードと隣人の特徴を集約し、より高度な特徴を形成する。 ダークスポット検出に使用したのはこれが初めてである。 提案手法を検証するため,バルト海を覆っている6つのSAR画像にすべての黒点をマークし,ダークスポット検出データセットを構築した(https://drive.google.com/drive/folders/12UavrntkDSPrItISQ8iGefXn2gIZHxJ6?usp= sharing)。 実験の結果,提案したSGDCNは堅牢で有効であることがわかった。

Synthetic Aperture Radar (SAR) is the main instrument utilized for the detection of oil slicks on the ocean surface. In SAR images, some areas affected by ocean phenomena, such as rain cells, upwellings, and internal waves, or discharge from oil spills appear as dark spots on images. Dark spot detection is the first step in the detection of oil spills, which then become oil slick candidates. The accuracy of dark spot segmentation ultimately affects the accuracy of oil slick identification. Although some advanced deep learning methods that use pixels as processing units perform well in remote sensing image semantic segmentation, detecting some dark spots with weak boundaries from noisy SAR images remains a huge challenge. We propose a dark spot detection method based on superpixels deeper graph convolutional networks (SGDCN) in this paper, which takes the superpixels as the processing units and extracts features for each superpixel. The features calculated from superpixel regions are more robust than those from fixed pixel neighborhoods. To reduce the difficulty of learning tasks, we discard irrelevant features and obtain an optimal subset of features. After superpixel segmentation, the images are transformed into graphs with superpixels as nodes, which are fed into the deeper graph convolutional neural network for node classification. This graph neural network uses a differentiable aggregation function to aggregate the features of nodes and neighbors to form more advanced features. It is the first time using it for dark spot detection. To validate our method, we mark all dark spots on six SAR images covering the Baltic Sea and construct a dark spots detection dataset, which has been made publicly available (https://drive.google.com/drive/folders/12UavrntkDSPrItISQ8iGefXn2gIZHxJ6?usp=sharing). The experimental results demonstrate that our proposed SGDCN is robust and effective.
翻訳日:2022-04-21 14:49:45 公開日:2022-04-20
# カテゴリー間バランスによるロングテール問題の解法

Solving The Long-Tailed Problem via Intra- and Inter-Category Balance ( http://arxiv.org/abs/2204.09234v1 )

ライセンス: Link先を確認
Renhui Zhang, Tiancheng Lin, Rui Zhang, Yi Xu(参考訳) ビジュアル認識のためのベンチマークデータセットは、データが均一に分散されていると仮定する。 現在のアプローチでは、長い尾のデータセットを再サンプリングや再重み付け戦略によって均一な分散に変換するために、長い尾の問題を処理している。 これらのアプローチはテールクラスを強調するが、ヘッドクラスのハード例を無視し、パフォーマンスが低下する。 本稿では, カテゴリー適応精度を持つ新しい勾配調和機構を提案し, カテゴリ内およびカテゴリ間バランス戦略を用いて, 長い尾問題における難易度とサンプルサイズ不均衡を分離する。 具体的には、カテゴリ内バランスは、各カテゴリのハード例に注目して決定境界を最適化する一方で、カテゴリ間バランスは、各カテゴリを単位として決定境界のシフトを補正することを目的としている。 大規模な実験により、提案手法は全てのデータセットにおける他の手法よりも一貫して優れていることが示された。

Benchmark datasets for visual recognition assume that data is uniformly distributed, while real-world datasets obey long-tailed distribution. Current approaches handle the long-tailed problem to transform the long-tailed dataset to uniform distribution by re-sampling or re-weighting strategies. These approaches emphasize the tail classes but ignore the hard examples in head classes, which result in performance degradation. In this paper, we propose a novel gradient harmonized mechanism with category-wise adaptive precision to decouple the difficulty and sample size imbalance in the long-tailed problem, which are correspondingly solved via intra- and inter-category balance strategies. Specifically, intra-category balance focuses on the hard examples in each category to optimize the decision boundary, while inter-category balance aims to correct the shift of decision boundary by taking each category as a unit. Extensive experiments demonstrate that the proposed method consistently outperforms other approaches on all the datasets.
翻訳日:2022-04-21 14:49:10 公開日:2022-04-20
# 映像ベース行動品質評価の実態調査

A Survey of Video-based Action Quality Assessment ( http://arxiv.org/abs/2204.09271v1 )

ライセンス: Link先を確認
Shunli Wang, Dingkang Yang, Peng Zhai, Qing Yu, Tao Suo, Zhan Sun, Ka Li, Lihua Zhang(参考訳) 人間の行動認識と分析は、ビデオ監視、ビデオ検索、人間とコンピュータの相互作用において、大きな需要と応用上の重要性を持っている。 人間の行動品質評価の課題は、人間によって達成された行動を自動的に客観的に評価するインテリジェントシステムを必要とする。 行動品質評価モデルは、行動評価に費やされる人的および物質的資源を削減し、主観性を低減することができる。 本稿では,映像ベース行動品質評価に関する既存論文の総合的な調査を行う。 人間の行動認識とは異なり、行動品質評価の応用シナリオは比較的狭い。 既存の仕事のほとんどはスポーツと医療に重点を置いている。 まず,人間の行動品質評価の定義と課題を紹介する。 次に、既存のデータセットと評価メトリクスを示す。 また,スポーツと医療の方法について,モデルカテゴリ別,出版機関別を両分野の特性別に要約した。 最後に、最近の研究と合わせて、行動品質評価における将来的な開発方向性について論じる。

Human action recognition and analysis have great demand and important application significance in video surveillance, video retrieval, and human-computer interaction. The task of human action quality evaluation requires the intelligent system to automatically and objectively evaluate the action completed by the human. The action quality assessment model can reduce the human and material resources spent in action evaluation and reduce subjectivity. In this paper, we provide a comprehensive survey of existing papers on video-based action quality assessment. Different from human action recognition, the application scenario of action quality assessment is relatively narrow. Most of the existing work focuses on sports and medical care. We first introduce the definition and challenges of human action quality assessment. Then we present the existing datasets and evaluation metrics. In addition, we summarized the methods of sports and medical care according to the model categories and publishing institutions according to the characteristics of the two fields. At the end, combined with recent work, the promising development direction in action quality assessment is discussed.
翻訳日:2022-04-21 14:48:52 公開日:2022-04-20
# 視覚言語ナビゲーションのための強化構造化状態進化

Reinforced Structured State-Evolution for Vision-Language Navigation ( http://arxiv.org/abs/2204.09280v1 )

ライセンス: Link先を確認
Jinyu Chen, Chen Gao, Erli Meng, Qiong Zhang, Si Liu(参考訳) vision-and-language navigation (vln)タスクは、自然言語命令に従って遠隔地へナビゲートするための具体化エージェントが必要である。 従来の方法では通常、シーケンスモデル(transformerやlstmなど)をナビゲータとして採用する。 このようなパラダイムでは、シーケンスモデルは、一般に1次元ベクトルとして表される、維持されたナビゲーション状態を通じて各ステップでのアクションを予測する。 しかし、維持ベクトルは本質的に非構造であるため、具体化されたナビゲーションタスクにとって重要なナビゲーションヒント(すなわち、オブジェクトレベルの環境レイアウト)は破棄される。 本稿では,VLNの環境レイアウトの手がかりを効果的に維持するための,構造化状態進化(SEvol)モデルを提案する。 具体的には、グラフベースの特徴を利用して、ベクトルベースの状態の代わりにナビゲーション状態を表現します。 そこで我々は,RLM(Reinforceed Layout clues Miner)をマイニングし,カスタマイズされた強化学習戦略を用いて,長期ナビゲーションにおいて最も重要なレイアウトグラフを検出する。 さらに、SEM(Structured Evolving Module)は、ナビゲーション中に構造化グラフベースの状態を維持するために提案され、状態は徐々に進化し、オブジェクトレベルと時空間の関係を学習する。 R2RとR4Rデータセットの実験により、提案されたSevolモデルは、NvEMの+3%絶対SPL精度とR2RテストセットのEnvDropの+8%といった大きなマージンでVLNモデルの性能を改善することが示された。

Vision-and-language Navigation (VLN) task requires an embodied agent to navigate to a remote location following a natural language instruction. Previous methods usually adopt a sequence model (e.g., Transformer and LSTM) as the navigator. In such a paradigm, the sequence model predicts action at each step through a maintained navigation state, which is generally represented as a one-dimensional vector. However, the crucial navigation clues (i.e., object-level environment layout) for embodied navigation task is discarded since the maintained vector is essentially unstructured. In this paper, we propose a novel Structured state-Evolution (SEvol) model to effectively maintain the environment layout clues for VLN. Specifically, we utilise the graph-based feature to represent the navigation state instead of the vector-based state. Accordingly, we devise a Reinforced Layout clues Miner (RLM) to mine and detect the most crucial layout graph for long-term navigation via a customised reinforcement learning strategy. Moreover, the Structured Evolving Module (SEM) is proposed to maintain the structured graph-based state during navigation, where the state is gradually evolved to learn the object-level spatial-temporal relationship. The experiments on the R2R and R4R datasets show that the proposed SEvol model improves VLN models' performance by large margins, e.g., +3% absolute SPL accuracy for NvEM and +8% for EnvDrop on the R2R test set.
翻訳日:2022-04-21 14:48:39 公開日:2022-04-20
# アンタングル変換器による物体間相互作用検出

Human-Object Interaction Detection via Disentangled Transformer ( http://arxiv.org/abs/2204.09290v1 )

ライセンス: Link先を確認
Desen Zhou, Zhichao Liu, Jian Wang, Leshan Wang, Tao Hu, Errui Ding, Jingdong Wang(参考訳) 人間と物体の相互作用検出は、人間の物体の相互作用の同時局在と分類の問題に取り組む。 既存のhoiトランスフォーマは、三重項予測に単一のデコーダを採用するか、2つの並列デコーダを使用して個別のオブジェクトと相互作用を別々に検出し、マッチングプロセスで三重項を構成する。 対照的に、三重項予測を人間と物体のペア検出と相互作用分類に分離する。 我々の主な動機は、人間-対象のインスタンスを検出し、相互作用を正確に分類するためには、異なる領域に焦点を当てた表現を正確に学習する必要があります。 この目的のために,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。 まず, 不等角デコーダの予測を関連付けるために, 基本デコーダとhoiトリプレットの統一表現を生成し, それぞれの不等角デコーダの入力特徴として利用する。 大規模な実験により、我々の手法は2つの公開HOIベンチマークの先行作業よりも大きなマージンで性能を発揮した。 コードは利用可能だ。

Human-Object Interaction Detection tackles the problem of joint localization and classification of human object interactions. Existing HOI transformers either adopt a single decoder for triplet prediction, or utilize two parallel decoders to detect individual objects and interactions separately, and compose triplets by a matching process. In contrast, we decouple the triplet prediction into human-object pair detection and interaction classification. Our main motivation is that detecting the human-object instances and classifying interactions accurately needs to learn representations that focus on different regions. To this end, we present Disentangled Transformer, where both encoder and decoder are disentangled to facilitate learning of two sub-tasks. To associate the predictions of disentangled decoders, we first generate a unified representation for HOI triplets with a base decoder, and then utilize it as input feature of each disentangled decoder. Extensive experiments show that our method outperforms prior work on two public HOI benchmarks by a sizeable margin. Code will be available.
翻訳日:2022-04-21 14:48:16 公開日:2022-04-20
# 注意の注意:効率的なビデオ分類のためのコンテキスト相関のモデリング

Attention in Attention: Modeling Context Correlation for Efficient Video Classification ( http://arxiv.org/abs/2204.09303v1 )

ライセンス: Link先を確認
Yanbin Hao, Shuo Wang, Pei Cao, Xinjian Gao, Tong Xu, Jinmeng Wu and Xiangnan He(参考訳) 注意機構は、視点コンテキストの利用により、ビデオ分類ニューラルネットワークの性能を大幅に向上させた。 しかし、ビデオアテンションに関する現在の研究は一般的に、特定の文脈(チャンネル、空間的・時間的・グローバルな文脈など)を採用して特徴を洗練させ、コンピュータアテンションを計算する際にその基盤となる相関を無視することに焦点を当てている。 これは不完全なコンテキスト利用につながるため、限られたパフォーマンス改善の弱点を伴います。 そこで本稿では,cinstと呼ばれる時空間的注意学習モジュールにチャネルコンテキストを挿入する可能性と,その逆変種であるstincについて検討する。 具体的には、ダイナミックスがグローバル平均と最大プーリング操作で特定の軸に沿って集約されたビデオ機能コンテキストをインスタンス化する。 AIAモジュールのワークフローは、第1のアテンションブロックが1つの種類のコンテキスト情報を使用して、他のコンテキストをターゲットとする第2のアテンションのゲーティング重み計算を導くことである。 さらに、注意ユニット内の全ての計算処理はプール化された次元に作用し、計算コストの増大($0.02\%)は極めて少ない。 提案手法を検証するため,従来の2つのビデオネットワークのバックボーンに密に統合し,いくつかの標準ビデオ分類ベンチマークで広範な実験を行った。 AIAのソースコードは \url{https://github.com/haoyanbin918/Attention-in-Attention} で公開されている。

Attention mechanisms have significantly boosted the performance of video classification neural networks thanks to the utilization of perspective contexts. However, the current research on video attention generally focuses on adopting a specific aspect of contexts (e.g., channel, spatial/temporal, or global context) to refine the features and neglects their underlying correlation when computing attentions. This leads to incomplete context utilization and hence bears the weakness of limited performance improvement. To tackle the problem, this paper proposes an efficient attention-in-attention (AIA) method for element-wise feature refinement, which investigates the feasibility of inserting the channel context into the spatio-temporal attention learning module, referred to as CinST, and also its reverse variant, referred to as STinC. Specifically, we instantiate the video feature contexts as dynamics aggregated along a specific axis with global average and max pooling operations. The workflow of an AIA module is that the first attention block uses one kind of context information to guide the gating weights calculation of the second attention that targets at the other context. Moreover, all the computational operations in attention units act on the pooled dimension, which results in quite few computational cost increase ($<$0.02\%). To verify our method, we densely integrate it into two classical video network backbones and conduct extensive experiments on several standard video classification benchmarks. The source code of our AIA is available at \url{https://github.com/haoyanbin918/Attention-in-Attention}.
翻訳日:2022-04-21 14:47:00 公開日:2022-04-20
# NTIRE 2022 圧縮ビデオの超解像化と品質向上への挑戦:データセット,方法,結果

NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results ( http://arxiv.org/abs/2204.09314v1 )

ライセンス: Link先を確認
Ren Yang, Radu Timofte, Meisong Zheng, Qunliang Xing, Minglang Qiao, Mai Xu, Lai Jiang, Huaida Liu, Ying Chen, Youcheng Ben, Xiao Zhou, Chen Fu, Pei Cheng, Gang Yu, Junyi Li, Renlong Wu, Zhilu Zhang, Wei Shang, Zhengyao Lv, Yunjin Chen, Mingcai Zhou, Dongwei Ren, Kai Zhang, Wangmeng Zuo, Pavel Ostyakov, Vyal Dmitry, Shakarim Soltanayev, Chervontsev Sergey, Zhussip Magauiya, Xueyi Zou, Youliang Yan Pablo Navarrete Michelini, Yunhua Lu, Diankai Zhang, Shaoli Liu, Si Gao, Biao Wu, Chengjian Zheng, Xiaofeng Zhang, Kaidi Lu, Ning Wang, Thuong Nguyen Canh, Thong Bach, Qing Wang, Xiaopeng Sun, Haoyu Ma, Shijie Zhao, Junlin Li, Liangbin Xie, Shuwei Shi, Yujiu Yang, Xintao Wang, Jinjin Gu, Chao Dong, Xiaodi Shi, Chunmei Nian, Dong Jiang, Jucai Lin, Zhihuai Xie, Mao Ye, Dengyan Luo, Liuhan Peng, Shengjie Chen, Xin Liu, Qian Wang, Xin Liu, Boyang Liang, Hang Dong, Yuhao Huang, Kai Chen, Xingbei Guo, Yujing Sun, Huilei Wu, Pengxu Wei, Yulin Huang, Junying Chen, Ik Hyun Lee, Sunder Ali Khowaja, Jiseok Yoon(参考訳) 圧縮ビデオの超解像化と品質向上に関する NTIRE 2022 Challenge をレビューする。 本課題では,LDVデータセット(240本)と95本の追加ビデオを含むLDV 2.0データセットを提案する。 この挑戦には3つのトラックが含まれる。 track 1は、hevcが圧縮したビデオを固定qpで拡張することを目的としている。 トラック2とトラック3はHEVC圧縮ビデオの超高解像度化と品質向上を目標としている。 これらはそれぞれ x2 と x4 の超解像を必要とする。 3つのトラックは600以上の登録を集めている。 テストフェーズでは、8チーム、8チーム、12チームがそれぞれ1, 2, 3のトラックに最終結果を提出した。 提案手法と解法は,圧縮ビデオの高解像度化と品質向上の最先端性を評価する。 提案されているLDV 2.0データセットはhttps://github.com/RenYang-home/LDV_datasetで公開されている。 このチャレンジのホームページ(オープンソースコードを含む)はhttps://github.com/RenYang-home/NTIRE22_VEnh_SRにある。

This paper reviews the NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video. In this challenge, we proposed the LDV 2.0 dataset, which includes the LDV dataset (240 videos) and 95 additional videos. This challenge includes three tracks. Track 1 aims at enhancing the videos compressed by HEVC at a fixed QP. Track 2 and Track 3 target both the super-resolution and quality enhancement of HEVC compressed video. They require x2 and x4 super-resolution, respectively. The three tracks totally attract more than 600 registrations. In the test phase, 8 teams, 8 teams and 12 teams submitted the final results to Tracks 1, 2 and 3, respectively. The proposed methods and solutions gauge the state-of-the-art of super-resolution and quality enhancement of compressed video. The proposed LDV 2.0 dataset is available at https://github.com/RenYang-home/LDV_dataset. The homepage of this challenge (including open-sourced codes) is at https://github.com/RenYang-home/NTIRE22_VEnh_SR.
翻訳日:2022-04-21 14:46:35 公開日:2022-04-20
# 逐次的点雲:調査

Sequential Point Clouds: A Survey ( http://arxiv.org/abs/2204.09337v1 )

ライセンス: Link先を確認
Haiyan Wang, Yingli Tian(参考訳) point cloudは、現実世界のアプリケーションと同様に、ますます研究の注目を集めている。 しかし、これらのアプリケーション(例えば、自律運転やロボット操作)の多くは、静的ポイントクラウドデータが提供できる情報はまだ限られているため、実際にはシーケンシャルポイントクラウド(すなわち4次元)に基づいている。 最近、研究者はシーケンシャル・ポイント・クラウドにより多くの努力を払っている。 本稿では,ダイナミックフロー推定,オブジェクト検出_&トラッキング,ポイントクラウドセグメンテーション,ポイントクラウド予測など,逐次的ポイントクラウド研究のためのディープラーニングベースの手法の広範なレビューを行う。 本稿では,提案手法の定量的評価結果を,公開ベンチマークデータセット上でさらに要約し,比較する。 最後に,現在の逐次クラウド研究における課題について議論し,今後の研究方向性について考察する。

Point cloud has drawn more and more research attention as well as real-world applications. However, many of these applications (e.g. autonomous driving and robotic manipulation) are actually based on sequential point clouds (i.e. four dimensions) because the information of the static point cloud data could provide is still limited. Recently, researchers put more and more effort into sequential point clouds. This paper presents an extensive review of the deep learning-based methods for sequential point cloud research including dynamic flow estimation, object detection \& tracking, point cloud segmentation, and point cloud forecasting. This paper further summarizes and compares the quantitative results of the reviewed methods over the public benchmark datasets. Finally, this paper is concluded by discussing the challenges in the current sequential point cloud research and pointing out insightful potential future research directions.
翻訳日:2022-04-21 14:46:21 公開日:2022-04-20
# 教師なし学習を用いたsward content prediction と herbage mass estimation の改善

Utilizing unsupervised learning to improve sward content prediction and herbage mass estimation ( http://arxiv.org/abs/2204.09343v1 )

ライセンス: Link先を確認
Paul Albert, Mohamed Saadeldin, Badri Narayanan, Brian Mac Namee, Deirdre Hennessy, Aisling H. O'Connor, Noel E. O'Connor and Kevin McGuinness(参考訳) スワード種組成推定は退屈なものである。 草本は畑で採集され、手動で成分を分け、乾燥し、種組成を推定するために重み付けされる。 ニューラルネットワークを用いた深層学習手法は, 牧草地のみでのバイオマス情報を推定することにより, より高速で費用効率の良い代替案を提案するために, 従来の研究で用いられてきた。 しかし、深層学習のアプローチは、遠隔地への一般化に苦慮し、異なる気候下での学習と最適な実行のために、さらなるデータ収集を必要とした。 本研究では,ニューラルネットワークのトレーニングにおいて,グラウンドトラスド(GT)画像の必要性を低減し,ディープラーニングソリューションを強化する。 本研究では,教師なしのコントラスト学習をスワード構成予測問題に利用し,デンマークで収集した草食データセットと,より最近のアイルランドから収集されたデータとの比較を行った。

Sward species composition estimation is a tedious one. Herbage must be collected in the field, manually separated into components, dried and weighed to estimate species composition. Deep learning approaches using neural networks have been used in previous work to propose faster and more cost efficient alternatives to this process by estimating the biomass information from a picture of an area of pasture alone. Deep learning approaches have, however, struggled to generalize to distant geographical locations and necessitated further data collection to retrain and perform optimally in different climates. In this work, we enhance the deep learning solution by reducing the need for ground-truthed (GT) images when training the neural network. We demonstrate how unsupervised contrastive learning can be used in the sward composition prediction problem and compare with the state-of-the-art on the publicly available GrassClover dataset collected in Denmark as well as a more recent dataset from Ireland where we tackle herbage mass and height estimation.
翻訳日:2022-04-21 14:46:07 公開日:2022-04-20
# 単一フレームアノテーションによるテキストクエリからの動画モーメント検索

Video Moment Retrieval from Text Queries via Single Frame Annotation ( http://arxiv.org/abs/2204.09409v1 )

ライセンス: Link先を確認
Ran Cui, Tianwen Qian, Pai Peng, Elena Daskalaki, Jingjing Chen, Xiaowei Guo, Huyang Sun, Yu-Gang Jiang(参考訳) ビデオモーメント検索は、与えられた自然言語クエリによって記述された瞬間(ビデオの一部)の開始と終了のタイムスタンプを見つけることを目的としている。 完全に監督されたメソッドは、期待できる結果を達成するために完全な時間境界アノテーションを必要とします。 弱い教師付きメソッドは、ペアビデオとクエリのみに依存するが、パフォーマンスは比較的貧弱である。 本稿では,アノテーションプロセスを詳細に検討し,"glance annotation"と呼ばれる新しいパラダイムを提案する。 このパラダイムでは、1つのランダムフレームのタイムスタンプしか必要とせず、これは完全に監督されたフレームの時間境界内で「ランス」と呼ばれる。 弱い監督と比較すると、ささいなコストが加えられる一方で、パフォーマンスの潜在的な可能性も増すので、これは有益である、と私たちは主張します。 視線アノテーション設定では,コントラスト学習に基づくGlance Annotation (ViGA) による映像モーメント検索という手法を提案する。 ViGAは、入力ビデオをクリップに切り分け、クリップとクエリ間のコントラストを指定し、ビューガイド付きガウス分布重みをすべてのクリップに割り当てる。 我々の広範な実験は、VGAが最先端の弱い教師付き手法よりも優れた結果を得られることを示唆している。

Video moment retrieval aims at finding the start and end timestamps of a moment (part of a video) described by a given natural language query. Fully supervised methods need complete temporal boundary annotations to achieve promising results, which is costly since the annotator needs to watch the whole moment. Weakly supervised methods only rely on the paired video and query, but the performance is relatively poor. In this paper, we look closer into the annotation process and propose a new paradigm called "glance annotation". This paradigm requires the timestamp of only one single random frame, which we refer to as a "glance", within the temporal boundary of the fully supervised counterpart. We argue this is beneficial because comparing to weak supervision, trivial cost is added yet more potential in performance is provided. Under the glance annotation setting, we propose a method named as Video moment retrieval via Glance Annotation (ViGA) based on contrastive learning. ViGA cuts the input video into clips and contrasts between clips and queries, in which glance guided Gaussian distributed weights are assigned to all clips. Our extensive experiments indicate that ViGA achieves better results than the state-of-the-art weakly supervised methods by a large margin, even comparable to fully supervised methods in some cases.
翻訳日:2022-04-21 14:45:48 公開日:2022-04-20
# 食生活評価のための移動食品認識システム

A Mobile Food Recognition System for Dietary Assessment ( http://arxiv.org/abs/2204.09432v1 )

ライセンス: Link先を確認
\c{S}eymanur Akt{\i}, Marwa Qaraqe, Haz{\i}m Kemal Ekenel(参考訳) 食品認識は、健康状態の管理や視覚障害者の支援など、さまざまなアプリケーションにとって重要なタスクである。 いくつかの食品認識研究は、一般の食品や特定の料理に焦点を合わせてきたが、中東料理に関する食品認識は未調査のままである。 そこで本稿では,モバイルフレンドリーな中東料理の開発に焦点をあて,生活支援のための食品認識アプリケーションを開発した。 低レイテンシで高精度な食品分類システムを実現するため,Mobilenet-v2深層学習モデルを用いた。 食品のいくつかは他の食品よりも人気があるため、使用済み中東食品データセットのクラス毎のサンプル数は比較的不均衡である。 この問題を補うために、未表現のクラスにデータ拡張手法を適用する。 実験の結果,mobilenet-v2アーキテクチャは,メモリ使用量と精度の両方において有益であることがわかった。 このモデルでは,23種類の食品で94%の精度を達成し,視覚障害者に画像による食品の自動認識を提供する可能性がある。

Food recognition is an important task for a variety of applications, including managing health conditions and assisting visually impaired people. Several food recognition studies have focused on generic types of food or specific cuisines, however, food recognition with respect to Middle Eastern cuisines has remained unexplored. Therefore, in this paper we focus on developing a mobile friendly, Middle Eastern cuisine focused food recognition application for assisted living purposes. In order to enable a low-latency, high-accuracy food classification system, we opted to utilize the Mobilenet-v2 deep learning model. As some of the foods are more popular than the others, the number of samples per class in the used Middle Eastern food dataset is relatively imbalanced. To compensate for this problem, data augmentation methods are applied on the underrepresented classes. Experimental results show that using Mobilenet-v2 architecture for this task is beneficial in terms of both accuracy and the memory usage. With the model achieving 94% accuracy on 23 food classes, the developed mobile application has potential to serve the visually impaired in automatic food recognition via images.
翻訳日:2022-04-21 14:45:27 公開日:2022-04-20
# FenceNet: フェンシングにおけるきめ細かいフットワーク認識

FenceNet: Fine-grained Footwork Recognition in Fencing ( http://arxiv.org/abs/2204.09434v1 )

ライセンス: Link先を確認
Kevin Zhu, Alexander Wong, John McPhee(参考訳) 現在のカナダオリンピックフェンシングチームのデータ分析は、主にコーチとアナリストが手動で行う。 フェンシングにおける非常に反復的で動的で微妙な動きのため、手動のデータ分析は非効率で不正確である。 フェンシングにおけるきめ細かいフットワーク手法の分類を自動化する新しいアーキテクチャとしてFenceNetを提案する。 FenceNetは入力として2Dポーズデータを取り込み、時間的畳み込みネットワークを組み込んで時間的情報をキャプチャするスケルトンベースのアクション認識アプローチを使用してアクションを分類する。 フェンシングフットワークデータセット(ffd)上で,10~11回の繰り返しに対して6つの異なるフットワークアクションを実行する10人のフェンシングフットワークデータセット(ffd)をトレーニングし,評価した。 fencenetは、10倍のクロスバリデーションの下で85.4%の精度を実現している。 この精度は現在の最先端手法であるjlja (86.3%) の1%以内であり、スケルトンデータ、深度ビデオ、慣性測定単位から特徴を抽出・融合している。 BiFenceNetは、2つの異なるネットワークを通して人間の運動の「双方向性」を捉え、87.6%の精度でJLJAを上回っている。 FenceNetもBiFenceNetもウェアラブルセンサーからのデータを必要としないので、JLJAとは異なり、2Dのポーズデータを市販の2Dのポーズ推定器から抽出した入力として利用することで、ほとんどのフェンシングビデオに直接適用することができる。 jljaと比較して、手作業による機能エンジニアリング、選択、あるいは融合を必要としないため、メソッドもシンプルです。

Current data analysis for the Canadian Olympic fencing team is primarily done manually by coaches and analysts. Due to the highly repetitive, yet dynamic and subtle movements in fencing, manual data analysis can be inefficient and inaccurate. We propose FenceNet as a novel architecture to automate the classification of fine-grained footwork techniques in fencing. FenceNet takes 2D pose data as input and classifies actions using a skeleton-based action recognition approach that incorporates temporal convolutional networks to capture temporal information. We train and evaluate FenceNet on the Fencing Footwork Dataset (FFD), which contains 10 fencers performing 6 different footwork actions for 10-11 repetitions each (652 total videos). FenceNet achieves 85.4% accuracy under 10-fold cross-validation, where each fencer is left out as the test set. This accuracy is within 1% of the current state-of-the-art method, JLJA (86.3%), which selects and fuses features engineered from skeleton data, depth videos, and inertial measurement units. BiFenceNet, a variant of FenceNet that captures the "bidirectionality" of human movement through two separate networks, achieves 87.6% accuracy, outperforming JLJA. Since neither FenceNet nor BiFenceNet requires data from wearable sensors, unlike JLJA, they could be directly applied to most fencing videos, using 2D pose data as input extracted from off-the-shelf 2D human pose estimators. In comparison to JLJA, our methods are also simpler as they do not require manual feature engineering, selection, or fusion.
翻訳日:2022-04-21 14:45:10 公開日:2022-04-20
# GIMO:注視による人間の動きの予測

GIMO: Gaze-Informed Human Motion Prediction in Context ( http://arxiv.org/abs/2204.09443v1 )

ライセンス: Link先を確認
Yang Zheng, Yanchao Yang, Kaichun Mo, Jiaman Li, Tao Yu, Yebin Liu, Karen Liu, Leonidas J. Guibas(参考訳) 人間の動きを予測することは、ロボットやar/vrアプリケーションにとって重要であり、人間との対話は安全で快適である必要がある。 一方、正確な予測はシーンコンテキストと人間の意図の両方を理解することに依存する。 多くの作品が人間の動きの予測を研究しているが、後者は人間の意図を明かす自我中心の見解の欠如と、動きやシーンの多様性の制限のため、ほとんど未熟である。 このギャップを小さくするために,高品質なボディポーズシーケンス,シーンスキャン,および人間の意図を推測するための代理として機能する目視付きエゴ中心のビューを提供する大規模な人体動作データセットを提案する。 運動キャプチャーに慣性センサーを用いることで、データ収集は特定のシーンに縛られず、被験者が観察する動きのダイナミクスをさらに強化する。 我々は,様々な最先端アーキテクチャを用いた自我中心の人間の運動予測における視線の活用の利点を広範囲に検討した。 さらに,視線の完全な可能性を実現するために,視線と動きの分岐間の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。 本ネットワークは,視線からの意図情報と,運動によって変調された視線特徴により,提案したデータセット上での人間の動作予測の最高性能を達成する。 提案するデータセットとネットワーク実装が公開される予定だ。

Predicting human motion is critical for assistive robots and AR/VR applications, where the interaction with humans needs to be safe and comfortable. Meanwhile, an accurate prediction depends on understanding both the scene context and human intentions. Even though many works study scene-aware human motion prediction, the latter is largely underexplored due to the lack of ego-centric views that disclose human intent and the limited diversity in motion and scenes. To reduce the gap, we propose a large-scale human motion dataset that delivers high-quality body pose sequences, scene scans, as well as ego-centric views with eye gaze that serves as a surrogate for inferring human intent. By employing inertial sensors for motion capture, our data collection is not tied to specific scenes, which further boosts the motion dynamics observed from our subjects. We perform an extensive study of the benefits of leveraging eye gaze for ego-centric human motion prediction with various state-of-the-art architectures. Moreover, to realize the full potential of gaze, we propose a novel network architecture that enables bidirectional communication between the gaze and motion branches. Our network achieves the top performance in human motion prediction on the proposed dataset, thanks to the intent information from the gaze and the denoised gaze feature modulated by the motion. The proposed dataset and our network implementation will be publicly available.
翻訳日:2022-04-21 14:44:40 公開日:2022-04-20
# gazeonce: リアルタイム多人数視線推定

GazeOnce: Real-Time Multi-Person Gaze Estimation ( http://arxiv.org/abs/2204.09480v1 )

ライセンス: Link先を確認
Mingfang Zhang, Yunfei Liu, Feng Lu(参考訳) 外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。 最近のディープ・ラーニング・ベース・アプローチは優れた性能を示しているが、通常は各入力画像に1つのキャリブレーション・フェイスを仮定する。 しかし,実世界のアプリケーションでは複数人の同時視線推定が必要である。 本稿では,画像中の複数の顔(>10)に対する視線方向を同時に予測できる,最初の1段階の終端視線推定手法であるGazeOnceを提案する。 さらに,高度なデータ生成パイプラインを設計し,複数の人物のフルイメージを3d視点で表示するmpsgazeという新しいデータセットを提案する。 実験結果から,我々の統合フレームワークは高速化だけでなく,最先端手法と比較して視線推定誤差も低いことがわかった。 この技術は、複数のユーザを持つリアルタイムアプリケーションに有用である。

Appearance-based gaze estimation aims to predict the 3D eye gaze direction from a single image. While recent deep learning-based approaches have demonstrated excellent performance, they usually assume one calibrated face in each input image and cannot output multi-person gaze in real time. However, simultaneous gaze estimation for multiple people in the wild is necessary for real-world applications. In this paper, we propose the first one-stage end-to-end gaze estimation method, GazeOnce, which is capable of simultaneously predicting gaze directions for multiple faces (>10) in an image. In addition, we design a sophisticated data generation pipeline and propose a new dataset, MPSGaze, which contains full images of multiple people with 3D gaze ground truth. Experimental results demonstrate that our unified framework not only offers a faster speed, but also provides a lower gaze estimation error compared with state-of-the-art methods. This technique can be useful in real-time applications with multiple users.
翻訳日:2022-04-21 14:43:41 公開日:2022-04-20
# 専門家の残留混合

Residual Mixture of Experts ( http://arxiv.org/abs/2204.09636v1 )

ライセンス: Link先を確認
Lemeng Wu, Mengchen Liu, Yinpeng Chen, Dongdong Chen, Xiyang Dai, Lu Yuan(参考訳) Mixture of Experts (MoE)はビジョントランスフォーマーを効果的にスケールアップすることができる。 しかし、大きなmoeトランスフォーマーを訓練するには計算リソースを禁止する必要がある。 本稿では,モエビジョントランスフォーマタ(moe vision transformers)をセグメンテーションや検出などの下流タスクで効率的なトレーニングパイプラインであるrmoe(sustains mixed of experts)を提案する。 RMoEは、上位バウンドのMoEトレーニングと同等の結果を得ると同時に、下位バウンドの非MoEトレーニングパイプラインよりも小さな追加のトレーニングコストしか導入しない。 MoE変換器の重みを入力非依存コアと入力依存残差に分解することができる。 重量コアと比較して、下流データでの微調整など、より少ない計算リソースで重量残差を効率的に訓練することができる。 現在のMoEトレーニングパイプラインと比較して、トレーニングコストを30%以上削減しながら、同等の結果が得られています。 Swin-T / CvT-13 / Swin-Lのような最先端の非MoEトランスと比較すると、ADE20Kセグメンテーションでは+1.1 / 0.9 / 1.0 mIoUゲイン、MS-COCOオブジェクト検出タスクでは+1.4 / 1.6 / 0.6 APゲインが3%以下のトレーニングコストで得られる。

Mixture of Experts (MoE) is able to scale up vision transformers effectively. However, it requires prohibiting computation resources to train a large MoE transformer. In this paper, we propose Residual Mixture of Experts (RMoE), an efficient training pipeline for MoE vision transformers on downstream tasks, such as segmentation and detection. RMoE achieves comparable results with the upper-bound MoE training, while only introducing minor additional training cost than the lower-bound non-MoE training pipelines. The efficiency is supported by our key observation: the weights of an MoE transformer can be factored into an input-independent core and an input-dependent residual. Compared with the weight core, the weight residual can be efficiently trained with much less computation resource, e.g., finetuning on the downstream data. We show that, compared with the current MoE training pipeline, we get comparable results while saving over 30% training cost. When compared with state-of-the-art non- MoE transformers, such as Swin-T / CvT-13 / Swin-L, we get +1.1 / 0.9 / 1.0 mIoU gain on ADE20K segmentation and +1.4 / 1.6 / 0.6 AP gain on MS-COCO object detection task with less than 3% additional training cost.
翻訳日:2022-04-21 14:43:24 公開日:2022-04-20
# ファブリック欠陥検出のためのワンクラスモデル

One-Class Model for Fabric Defect Detection ( http://arxiv.org/abs/2204.09648v1 )

ライセンス: Link先を確認
Hao Zhou, Yixin Chen, David Troendle, Byunghyun Jang(参考訳) 自動的かつ高精度な織物欠陥検査システムは、繊維産業における遅く、一貫性がなく、エラーを起こしやすく、高価な人間オペレーターの代替として需要が高い。 以前の取り組みでは、特定の種類のファブリックや欠陥に焦点を当てていたが、これは理想的な解決策ではない。 本稿では,布地の種類によって異なる欠陥を検知できる新しい1クラスモデルを提案する。 本モデルでは,よく設計されたgaborフィルタバンクを用いてテクスチャ解析を行う。 次に,高度なディープラーニングアルゴリズムであるautoencoderを用いてgaborフィルタバンクの出力から一般特徴表現を学習する。 最後に, 潜在的な欠陥を特定し, ファブリック画像上に描画する近傍密度推定器を開発した。 提案モデルの有効性と頑健性を, 平地, 模様地, 回転布などの各種布地で検証し, 実証実験を行った。 また,本モデルでは,標準ファブリック欠陥グラフに基づくデータセットに誤報はなく,0.895の正の値(リコール)も達成している。

An automated and accurate fabric defect inspection system is in high demand as a replacement for slow, inconsistent, error-prone, and expensive human operators in the textile industry. Previous efforts focused on certain types of fabrics or defects, which is not an ideal solution. In this paper, we propose a novel one-class model that is capable of detecting various defects on different fabric types. Our model takes advantage of a well-designed Gabor filter bank to analyze fabric texture. We then leverage an advanced deep learning algorithm, autoencoder, to learn general feature representations from the outputs of the Gabor filter bank. Lastly, we develop a nearest neighbor density estimator to locate potential defects and draw them on the fabric images. We demonstrate the effectiveness and robustness of the proposed model by testing it on various types of fabrics such as plain, patterned, and rotated fabrics. Our model also achieves a true positive rate (a.k.a recall) value of 0.895 with no false alarms on our dataset based upon the Standard Fabric Defect Glossary.
翻訳日:2022-04-21 14:42:57 公開日:2022-04-20
# Ordinal-ResLogit:順序付き選択のための解釈可能なDeep Residual Neural Network

Ordinal-ResLogit: Interpretable Deep Residual Neural Networks for Ordered Choices ( http://arxiv.org/abs/2204.09187v1 )

ライセンス: Link先を確認
Kimia Kamal and Bilal Farooq(参考訳) 本研究は, 規則応答を調べるために, 規則型Residual Logit(Ordinal-ResLogit)モデルを提案する。 我々は、標準的なResLogitモデルをバイナリ分類アルゴリズムに分類したConsistent RAnk Logits (CORAL)フレームワークに統合し、完全に解釈可能なディープラーニングに基づく順序回帰モデルを開発する。 正規-ResLogitモデルの定式化はResidual Neural Networksの概念を楽しみ、提案モデルはブラックボックスとして知られる機械学習アルゴリズムの主な制約に対処する。 さらに、順序データのバイナリ分類フレームワークであるordinal-reslogitモデルは、バイナリ分類器間の一貫性を保証する。 その結果,データから観測できない不均質性や,解釈可能な深層学習に基づくモデルが得られることが分かった。 市場シェア、代替パターン、弾力性の定式化が導出される。 オーディナル・レスロジットモデルとオーディナル・レスロジットモデルの性能を,歩行者待ち時間に記載された嗜好(SP)データセットと走行距離に明示された嗜好(RP)データセットを用いて比較した。 その結果,ordinal-reslogitは,従来のordinal regressionモデルよりも優れていた。 さらに,ordinal-reslogit rpモデルから得られた結果は,運転費や交通費などの旅行特性が,非整備旅行の場所選択に有意な影響を与えていることを示している。 本研究の結果から,道路関連変数と交通条件が歩行者待ち時間の予測に寄与し,交通条件の混合が待ち時間選択の確率を著しく向上させることがわかった。

This study presents an Ordinal version of Residual Logit (Ordinal-ResLogit) model to investigate the ordinal responses. We integrate the standard ResLogit model into COnsistent RAnk Logits (CORAL) framework, classified as a binary classification algorithm, to develop a fully interpretable deep learning-based ordinal regression model. As the formulation of the Ordinal-ResLogit model enjoys the Residual Neural Networks concept, our proposed model addresses the main constraint of machine learning algorithms, known as black-box. Moreover, the Ordinal-ResLogit model, as a binary classification framework for ordinal data, guarantees consistency among binary classifiers. We showed that the resulting formulation is able to capture underlying unobserved heterogeneity from the data as well as being an interpretable deep learning-based model. Formulations for market share, substitution patterns, and elasticities are derived. We compare the performance of the Ordinal-ResLogit model with an Ordered Logit Model using a stated preference (SP) dataset on pedestrian wait time and a revealed preference (RP) dataset on travel distance. Our results show that Ordinal-ResLogit outperforms the traditional ordinal regression model for both datasets. Furthermore, the results obtained from the Ordinal-ResLogit RP model show that travel attributes such as driving and transit cost have significant effects on choosing the location of non-mandatory trips. In terms of the Ordinal-ResLogit SP model, our results highlight that the road-related variables and traffic condition are contributing factors in the prediction of pedestrian waiting time such that the mixed traffic condition significantly increases the probability of choosing longer waiting times.
翻訳日:2022-04-21 14:42:42 公開日:2022-04-20
# (参考訳) Adversarial Scratches: CNN分類器へのデプロイ可能なアタック

Adversarial Scratches: Deployable Attacks to CNN Classifiers ( http://arxiv.org/abs/2204.09397v1 )

ライセンス: CC BY-SA 4.0
Loris Giulivi, Malhar Jere, Loris Rossi, Farinaz Koushanfar, Gabriela Ciocarlie, Briland Hitaj, Giacomo Boracchi(参考訳) 研究の活発化により、ディープニューラルネットワークは敵の例に影響を受けやすいことが示されている。 これらはモデルの入力に適用される小さな摂動の形をとり、誤った予測につながる。 残念なことに、ほとんどの文献では、視覚的に知覚できない摂動に焦点をあてて、多くの場合、物理的ターゲットにデプロイできないデジタル画像に適用している。 我々は、画像の傷の形を取り、他の最先端の攻撃よりもはるかに高い展開性を持つ新しいL0ブラックボックス攻撃であるAdversarial Scratchesを提示する。 敵対的スクラッチはB\'ezier Curvesを利用して検索空間の次元を減らし、攻撃を特定の場所に制限する。 公開APIや交通標識の画像など,いくつかのシナリオでAdversarial Scratchesをテストしています。 その結果、攻撃は多くの場合、他のデプロイ可能なstate-of-the-artメソッドよりも高い騙し率を達成でき、クエリの大幅な削減とごくわずかなピクセルの変更が必要となる。

A growing body of work has shown that deep neural networks are susceptible to adversarial examples. These take the form of small perturbations applied to the model's input which lead to incorrect predictions. Unfortunately, most literature focuses on visually imperceivable perturbations to be applied to digital images that often are, by design, impossible to be deployed to physical targets. We present Adversarial Scratches: a novel L0 black-box attack, which takes the form of scratches in images, and which possesses much greater deployability than other state-of-the-art attacks. Adversarial Scratches leverage B\'ezier Curves to reduce the dimension of the search space and possibly constrain the attack to a specific location. We test Adversarial Scratches in several scenarios, including a publicly available API and images of traffic signs. Results show that, often, our attack achieves higher fooling rate than other deployable state-of-the-art methods, while requiring significantly fewer queries and modifying very few pixels.
翻訳日:2022-04-21 14:41:32 公開日:2022-04-20
# ケースアウェアadversarial training (特集 ケースアウェアadversarial training)

Case-Aware Adversarial Training ( http://arxiv.org/abs/2204.09398v1 )

ライセンス: Link先を確認
Mingyuan Fan, Yang Liu, Wenzhong Guo, Ximeng Liu, Jianhua Li(参考訳) ニューラルネットワーク(NN)は、様々な信号処理アプリケーションにおいて最も加熱されたモデルの1つである。 しかし、NNは敵の例(AE)に対して極めて脆弱である。 AEs を守るために,AT は計算量が多いため,ほとんどのアプリケーションにおいて適用が制限される一方で,最も効果的な手法であると考えられている。 本稿では,この問題を解決するために,汎用的で効率的なAT改善スキーム,すなわちケースアウェア・逆行訓練(CAT)を設計する。 特に直観は、情報的なサンプルの非常に限られた部分がモデルのパフォーマンスのほとんどに寄与できるという事実に起因している。 あるいは、最も情報性の高いAEがATでのみ使用される場合、防御効果を維持するため、ATの計算複雑性を著しく低下させることができる。 これを達成するために、CATは2つのブレークスルーを達成する。 まず, aeフィルタリングにおいて, 逆例の情報度を推定する手法を提案する。 第2に、NNがAEから得られる情報をさらに強化するために、CATは各イテレーションにおけるATの多様性を高めるために、重み推定とクラスレベルのバランスに基づくサンプリング戦略を含む。 広範囲な実験により、猫はバニラよりも最大3倍高速で防御効果を発揮できることが示された。

The neural network (NN) becomes one of the most heated type of models in various signal processing applications. However, NNs are extremely vulnerable to adversarial examples (AEs). To defend AEs, adversarial training (AT) is believed to be the most effective method while due to the intensive computation, AT is limited to be applied in most applications. In this paper, to resolve the problem, we design a generic and efficient AT improvement scheme, namely case-aware adversarial training (CAT). Specifically, the intuition stems from the fact that a very limited part of informative samples can contribute to most of model performance. Alternatively, if only the most informative AEs are used in AT, we can lower the computation complexity of AT significantly as maintaining the defense effect. To achieve this, CAT achieves two breakthroughs. First, a method to estimate the information degree of adversarial examples is proposed for AE filtering. Second, to further enrich the information that the NN can obtain from AEs, CAT involves a weight estimation and class-level balancing based sampling strategy to increase the diversity of AT at each iteration. Extensive experiments show that CAT is faster than vanilla AT by up to 3x while achieving competitive defense effect.
翻訳日:2022-04-21 14:19:20 公開日:2022-04-20
# スカンパス予測に対する確率論的時間発展的アプローチ

A Probabilistic Time-Evolving Approach to Scanpath Prediction ( http://arxiv.org/abs/2204.09404v1 )

ライセンス: Link先を確認
Daniel Martin, Diego Gutierrez, Belen Masia(参考訳) 人間の視覚注意は何十年も研究されてきた複雑な現象である。 その内、スキャンパス予測の特定の問題は、特にサーバ間の変動や、サーバ内の変動が原因で、課題となる。 さらに、スカンパス予測の既存のアプローチのほとんどは、前者の視線の予測を最適化することに焦点を当てている。 本研究では,ベイズ深層学習に基づくスカンパス予測の確率論的時間発展手法を提案する。 走査パスの空間的次元と時間的次元を共同で考慮し,Kullback-Leibler分散と動的時間ワープを組み合わせた新しい時空間損失関数を用いて,我々のモデルを最適化する。 我々のスキャンパス予測フレームワークは、現在の最先端のアプローチよりも優れており、人間のベースラインとほぼ同等であり、我々のモデルが実際のモデルとよく似た振る舞いを持つスキャンパスを生成することができることを示唆している。

Human visual attention is a complex phenomenon that has been studied for decades. Within it, the particular problem of scanpath prediction poses a challenge, particularly due to the inter- and intra-observer variability, among other reasons. Besides, most existing approaches to scanpath prediction have focused on optimizing the prediction of a gaze point given the previous ones. In this work, we present a probabilistic time-evolving approach to scanpath prediction, based on Bayesian deep learning. We optimize our model using a novel spatio-temporal loss function based on a combination of Kullback-Leibler divergence and dynamic time warping, jointly considering the spatial and temporal dimensions of scanpaths. Our scanpath prediction framework yields results that outperform those of current state-of-the-art approaches, and are almost on par with the human baseline, suggesting that our model is able to generate scanpaths whose behavior closely resembles those of the real ones.
翻訳日:2022-04-21 14:18:57 公開日:2022-04-20
# HRPose:知識蒸留を用いたリアルタイム高分解能6Dポーズ推定ネットワーク

HRPose: Real-Time High-Resolution 6D Pose Estimation Network Using Knowledge Distillation ( http://arxiv.org/abs/2204.09429v1 )

ライセンス: Link先を確認
Qi Guan, Zihao Sheng, and Shibei Xue(参考訳) リアルタイムの6dオブジェクトポーズ推定は、ロボットの把持や拡張現実など、多くの現実世界のアプリケーションにとって不可欠である。 リアルタイムにRGB画像から正確なオブジェクトポーズ推定を実現するため,高分解能6D Pose Estimation Network (HRPose) という,効果的で軽量なモデルを提案する。 我々は,高効率で小型なhrnetv2-w18を特徴抽出器として採用し,正確な6次元ポーズを生成する。 モデルサイズと計算コストの33倍に過ぎず、我々のHRPoseは最先端モデルと比較して同等のパフォーマンスを実現している。 さらに, 提案したHRPoseに大規模モデルからの知識を出力, 特徴相似蒸留を通じて伝達することにより, HRPoseの有効性と効率性を向上した。 ベンチマークラインモッドを用いた数値実験により,提案手法の有効性が実証された。

Real-time 6D object pose estimation is essential for many real-world applications, such as robotic grasping and augmented reality. To achieve an accurate object pose estimation from RGB images in real-time, we propose an effective and lightweight model, namely High-Resolution 6D Pose Estimation Network (HRPose). We adopt the efficient and small HRNetV2-W18 as a feature extractor to reduce computational burdens while generating accurate 6D poses. With only 33\% of the model size and lower computational costs, our HRPose achieves comparable performance compared with state-of-the-art models. Moreover, by transferring knowledge from a large model to our proposed HRPose through output and feature-similarity distillations, the performance of our HRPose is improved in effectiveness and efficiency. Numerical experiments on the widely-used benchmark LINEMOD demonstrate the superiority of our proposed HRPose against state-of-the-art methods.
翻訳日:2022-04-21 14:18:41 公開日:2022-04-20
# Hephaestus: InSAR理解に向けた大規模マルチタスクデータセット

Hephaestus: A large scale multitask dataset towards InSAR understanding ( http://arxiv.org/abs/2204.09435v1 )

ライセンス: Link先を確認
Nikolaos Ioannis Bountos and Ioannis Papoutsis and Dimitrios Michail and Andreas Karavias and Panagiotis Elias and Isaak Parcharidis(参考訳) SAR(Synthetic Aperture Radar)データとインターフェロメトリSAR(Interferometric SAR)製品は、地球観測データの主要な情報源の1つである。 InSARは、多様な物理過程や地質学、人工構造物の地質学的特性に関するユニークな情報を提供している。 しかし、insarデータやディープラーニング手法の豊富さを活用して、そのような知識を抽出するアプリケーションの数は限られている。 主な障壁は、InSARデータ解釈に経験した学際的な専門家チームを必要とする、大規模なキュレーションと注釈付きInSARデータセットの欠如である。 本研究では,世界中の44の火山で取得した19,919個のsentinel-1インターフェログラムからなり,それぞれ216,106個のinsarパッチに分割した,手作業による注釈付きデータセットの作成と利用可能化に尽力した。 この注釈付きデータセットは、火山状態の分類、地面変形のセマンティックセグメンテーション、InSAR画像における大気信号の検出と分類、インターフェログラムキャプション、テキストからInSAR生成、InSAR画像の品質評価など、さまざまなコンピュータビジョン問題に対処するように設計されている。

Synthetic Aperture Radar (SAR) data and Interferometric SAR (InSAR) products in particular, are one of the largest sources of Earth Observation data. InSAR provides unique information on diverse geophysical processes and geology, and on the geotechnical properties of man-made structures. However, there are only a limited number of applications that exploit the abundance of InSAR data and deep learning methods to extract such knowledge. The main barrier has been the lack of a large curated and annotated InSAR dataset, which would be costly to create and would require an interdisciplinary team of experts experienced on InSAR data interpretation. In this work, we put the effort to create and make available the first of its kind, manually annotated dataset that consists of 19,919 individual Sentinel-1 interferograms acquired over 44 different volcanoes globally, which are split into 216,106 InSAR patches. The annotated dataset is designed to address different computer vision problems, including volcano state classification, semantic segmentation of ground deformation, detection and classification of atmospheric signals in InSAR imagery, interferogram captioning, text to InSAR generation, and InSAR image quality assessment.
翻訳日:2022-04-21 14:18:22 公開日:2022-04-20
# 日本語CCGに基づく時間順の合成意味論と推論システム

Compositional Semantics and Inference System for Temporal Order based on Japanese CCG ( http://arxiv.org/abs/2204.09245v1 )

ライセンス: Link先を確認
Tomoki Sugimoto, Hitomi Yanaka(参考訳) 自然言語推論 (nli) は、前提が仮説を伴うかどうかを決定するタスクである。 時間的順序を持つNLIは、時制とアスペクトが時間的副詞と時間的接続物との相互作用を含む複雑な言語現象であるため、困難な課題である。 これに対処するために、時間的およびアスペクト的推論は形式的意味論の分野において様々な方法で分析されてきた。 しかし,形式的意味論の分析に基づく日本語の時間秩序システムNLIは十分に開発されていない。 本稿では,コンビネータ・カテゴリ文法(ccg)構文解析による合成意味論に基づく日本語の時間順序を考慮した論理ベースのnliシステムを提案する。 本システムでは,時間関係の公理と自動定理生成を用いて時間次数を含む推論を行う。 時間順を含む日本語NLIデータセットを実験し,本システムの評価を行った。 その結果,本システムは従来の論理系システムや現在のディープラーニングモデルよりも優れていることがわかった。

Natural Language Inference (NLI) is the task of determining whether a premise entails a hypothesis. NLI with temporal order is a challenging task because tense and aspect are complex linguistic phenomena involving interactions with temporal adverbs and temporal connectives. To tackle this, temporal and aspectual inference has been analyzed in various ways in the field of formal semantics. However, a Japanese NLI system for temporal order based on the analysis of formal semantics has not been sufficiently developed. We present a logic-based NLI system that considers temporal order in Japanese based on compositional semantics via Combinatory Categorial Grammar (CCG) syntactic analysis. Our system performs inference involving temporal order by using axioms for temporal relations and automated theorem provers. We evaluate our system by experimenting with Japanese NLI datasets that involve temporal order. We show that our system outperforms previous logic-based systems as well as current deep learning-based models.
翻訳日:2022-04-21 14:15:55 公開日:2022-04-20
# FASLを用いたアクティブ・ファウショット学習

Active Few-Shot Learning with FASL ( http://arxiv.org/abs/2204.09347v1 )

ライセンス: Link先を確認
Thomas M\"uller and Guillermo P\'erez-Torr\'o and Angelo Basile and Marc Franco-Salvador(参考訳) 自然言語処理(NLP)の最近の進歩は、多くのタスクに対して強力なテキスト分類モデルを生み出している。 しかし、高品質なモデルのトレーニングには何千もの例が必要となることが多い。 これにより、現実世界の問題やビジネスニーズの新しいモデルを素早く開発し、デプロイすることが困難になります。 数少ない学習とアクティブラーニングは、この問題に取り組むための2つの研究ラインである。 本研究では,両行をfaslに結合し,反復的かつ高速なプロセスを用いたテキスト分類モデルのトレーニングを可能にする。 数ショットのセットアップでどのアクティブな学習方法が最も効果的かを検討する。 さらに,アノテーションの停止時期を予測するモデルも開発した。 少数のセットアップでは大きなバリデーションセットにアクセスできないため、これは適切です。

Recent advances in natural language processing (NLP) have led to strong text classification models for many tasks. However, still often thousands of examples are needed to train models with good quality. This makes it challenging to quickly develop and deploy new models for real world problems and business needs. Few-shot learning and active learning are two lines of research, aimed at tackling this problem. In this work, we combine both lines into FASL, a platform that allows training text classification models using an iterative and fast process. We investigate which active learning methods work best in our few-shot setup. Additionally, we develop a model to predict when to stop annotating. This is relevant as in a few-shot setup we do not have access to a large validation set.
翻訳日:2022-04-21 14:15:41 公開日:2022-04-20
# ソーシャルメディアにおける苦情の強度分析

Analyzing the Intensity of Complaints on Social Media ( http://arxiv.org/abs/2204.09366v1 )

ライセンス: Link先を確認
Ming Fang, Shi Zong, Jing Li, Xinyu Dai, Shujian Huang, Jiajun Chen(参考訳) 批判は、現実と人間の期待の負の矛盾を表現する言論行為である。 先行研究は主に苦情の有無の特定に重点を置いているが,本研究ではテキストから苦情の強度を計測する計算言語学における最初の研究を紹介する。 このような観点からの苦情の分析は特に有用であり、ある程度の苦情が企業や組織に深刻な影響をもたらす可能性がある。 中国の人気のソーシャルメディアプラットフォームであるweiboの苦情に関する3,103の投稿を含む、最初の中国のデータセットを作成しました。 これらの投稿は、Best-Worst Scaling (BWS)メソッドを使って苦情の強度スコアで注釈付けされる。 平均二乗誤差が0.11となる計算モデルにより,苦情強度を正確に推定できることを示す。 さらに,苦情と感情の関連,中国語話者と英語話者の不満表現の言語間比較など,苦情に関する総合的な言語学的分析を行った。 最終的に、私たちの苦情の強度スコアは、ソーシャルメディア上の投稿の人気をより良い評価に組み込むことができることを示します。

Complaining is a speech act that expresses a negative inconsistency between reality and human expectations. While prior studies mostly focus on identifying the existence or the type of complaints, in this work, we present the first study in computational linguistics of measuring the intensity of complaints from text. Analyzing complaints from such perspective is particularly useful, as complaints of certain degrees may cause severe consequences for companies or organizations. We create the first Chinese dataset containing 3,103 posts about complaints from Weibo, a popular Chinese social media platform. These posts are then annotated with complaints intensity scores using Best-Worst Scaling (BWS) method. We show that complaints intensity can be accurately estimated by computational models with the best mean square error achieving 0.11. Furthermore, we conduct a comprehensive linguistic analysis around complaints, including the connections between complaints and sentiment, and a cross-lingual comparison for complaints expressions used by Chinese and English speakers. We finally show that our complaints intensity scores can be incorporated for better estimating the popularity of posts on social media.
翻訳日:2022-04-21 14:15:31 公開日:2022-04-20
# BERTはラベルノイズに頑健か? テキスト分類における雑音ラベルを用いた学習に関する研究

Is BERT Robust to Label Noise? A Study on Learning with Noisy Labels in Text Classification ( http://arxiv.org/abs/2204.09371v1 )

ライセンス: Link先を確認
Dawei Zhu, Michael A. Hedderich, Fangzhou Zhai, David Ifeoluwa Adelani, Dietrich Klakow(参考訳) トレーニングデータの誤ったラベルは、人間のアノテータがミスをしたときや、弱いまたは遠い監視によってデータが生成されるときに発生する。 複雑なノイズ処理技術 (モデリング、クリーニング、あるいはノイズのあるインスタンスのフィルタリング) は、モデルがこのラベルノイズに収まらないよう要求されている。 しかし,本研究では,BERTのような現代のNLPモデルを用いたテキスト分類作業において,様々なノイズタイプに対して,既存のノイズ処理手法が常に性能を向上するわけではなく,さらに調査の必要性が示唆されている。 私たちはまた、包括的な分析で観察をバックアップします。

Incorrect labels in training data occur when human annotators make mistakes or when the data is generated via weak or distant supervision. It has been shown that complex noise-handling techniques - by modeling, cleaning or filtering the noisy instances - are required to prevent models from fitting this label noise. However, we show in this work that, for text classification tasks with modern NLP models like BERT, over a variety of noise types, existing noisehandling methods do not always improve its performance, and may even deteriorate it, suggesting the need for further investigation. We also back our observations with a comprehensive analysis.
翻訳日:2022-04-21 14:15:15 公開日:2022-04-20
# (参考訳) 量対品質: サンプルサイズとラベル信頼性のトレードオフを探る

Quantity vs Quality: Investigating the Trade-Off between Sample Size and Label Reliability ( http://arxiv.org/abs/2204.09462v1 )

ライセンス: CC BY 4.0
Timo Bertram, Johannes F\"urnkranz, Martin M\"uller(参考訳) 本稿では,学習者が不正確なラベルを受信する確率的領域における学習について検討するが,繰り返しサンプリングすることでラベルの信頼性を向上させることができる。 このような状況下では、トレーニング例を得るための一定の予算が、すべての異なる例を得るためか、ラベルを再サンプリングすることでより少ない数の例のラベル品質を改善するために使われるべきかという問題に直面している。 学習信号が隠れたコミュニティカードに依存するポーカーハンドの強度を比較し、MNISTデータベースに制御ノイズレベルを挿入する人工環境において、それを深く研究するアプリケーションにおいて、この問題を動機付けている。 その結果, 誤りラベル数が多すぎる場合に分類器の性能が低下するため, 先行例の再サンプリングは, 新たな例を得るよりもますます重要となることがわかった。 さらに,学習過程でより低い評価値から高い評価値に切り替える方法と,得られたラベルの信頼度を近似するためにchi-square統計を用いる方法を提案する。

In this paper, we study learning in probabilistic domains where the learner may receive incorrect labels but can improve the reliability of labels by repeatedly sampling them. In such a setting, one faces the problem of whether the fixed budget for obtaining training examples should rather be used for obtaining all different examples or for improving the label quality of a smaller number of examples by re-sampling their labels. We motivate this problem in an application to compare the strength of poker hands where the training signal depends on the hidden community cards, and then study it in depth in an artificial setting where we insert controlled noise levels into the MNIST database. Our results show that with increasing levels of noise, resampling previous examples becomes increasingly more important than obtaining new examples, as classifier performance deteriorates when the number of incorrect labels is too high. In addition, we propose two different validation strategies; switching from lower to higher validations over the course of training and using chi-square statistics to approximate the confidence in obtained labels.
翻訳日:2022-04-21 14:13:02 公開日:2022-04-20
# 季節需要をもつ2エキロン系サプライチェーンの深部強化学習

Deep Reinforcement Learning for a Two-Echelon Supply Chain with Seasonal Demand ( http://arxiv.org/abs/2204.09603v1 )

ライセンス: Link先を確認
Francesco Stranieri and Fabio Stella(参考訳) 本稿では,近年の強化学習・深層学習の進歩を活かし,サプライチェーン在庫管理問題(サプライチェーン在庫管理問題)を解決した。 確率的な2つのエケロンサプライチェーン環境の数学的定式化が与えられ、任意の数の倉庫や製品タイプを管理することができる。 さらに、深層強化学習アルゴリズムとインターフェースするオープンソースライブラリを開発し、在庫管理問題を解決するために公開している。 最先端の深層強化学習アルゴリズムにより達成された性能は、合成データに対する豊富な数値実験によって比較される。 実験計画は、異なる構造、トポロジ、要求、能力、サプライチェーンのコストを含む設計および実行されている。 その結果,PPOアルゴリズムは環境の特性に非常によく適応していることがわかった。 VPGアルゴリズムはほとんど常に局所的な最大値に収束する。 最後に、A3Cは最速のアルゴリズムであるが、VPGと同様に、PPOと比較して最高のパフォーマンスを達成することはない。 その結果,深層強化学習は静的(s,q)-ポリシーのような標準在庫管理戦略よりも一貫して優れた結果が得られることがわかった。 したがって、確率的2ケロンサプライチェーン問題の現実のインスタンスを解決するための実用的かつ効果的な選択肢と考えることができる。

This paper leverages recent developments in reinforcement learning and deep learning to solve the supply chain inventory management problem, a complex sequential decision-making problem consisting of determining the optimal quantity of products to produce and ship to different warehouses over a given time horizon. A mathematical formulation of the stochastic two-echelon supply chain environment is given, which allows an arbitrary number of warehouses and product types to be managed. Additionally, an open-source library that interfaces with deep reinforcement learning algorithms is developed and made publicly available for solving the inventory management problem. Performances achieved by state-of-the-art deep reinforcement learning algorithms are compared through a rich set of numerical experiments on synthetically generated data. The experimental plan is designed and performed, including different structures, topologies, demands, capacities, and costs of the supply chain. Results show that the PPO algorithm adapts very well to different characteristics of the environment. The VPG algorithm almost always converges to a local maximum, even if it typically achieves an acceptable performance level. Finally, A3C is the fastest algorithm, but just like the VPG, it never achieves the best performance when compared to PPO. In conclusion, numerical experiments show that deep reinforcement learning performs consistently better than standard inventory management strategies, such as the static (s, Q)-policy. Thus, it can be considered a practical and effective option for solving real-world instances of the stochastic two-echelon supply chain problem.
翻訳日:2022-04-21 13:53:54 公開日:2022-04-20
# nowcastsから4時間予測への風力予測--可変選択を用いた学習アプローチ

Wind power predictions from nowcasts to 4-hour forecasts: a learning approach with variable selection ( http://arxiv.org/abs/2204.09362v1 )

ライセンス: Link先を確認
Dimitri Bouche, R\'emi Flamary, Florence d'Alch\'e-Buc, Riwal Plougonven, Marianne Clausel, Jordi Badosa, Philippe Drobinski(参考訳) 本研究では,短期的な風速と風力の予測について検討する(平均して10分から4時間先まで)。 これらの量の正確な予測は、風力発電所の断続的な生産がエネルギーシステムや市場に与える影響を緩和するために不可欠である。 これらの時間スケールでは、数値天気予報モデルの出力は、高スケールのダイナミクスに関する貴重な情報を提供する必要があるにもかかわらず、通常見過ごされる。 本研究では,これらの出力を機械学習を用いた局所観測と組み合わせる。 実践者が結果を利用できるようにするために、我々は大量のデータを処理できるシンプルでよく知られた方法に焦点を合わせます。 まず,線形と非線形の2つの単純な手法による変数選択について検討した。 そして,これらの結果を線形モデルと非線形モデルに重きを置きながら,風速と風力の予測に活用する。 また,風力予測については,間接的アプローチ(風速予測がパワーカーブを通過する)と間接的アプローチ(直接的風力予測)を比較した。

We study the prediction of short term wind speed and wind power (every 10 minutes up to 4 hours ahead). Accurate forecasts for those quantities are crucial to mitigate the negative effects of wind farms' intermittent production on energy systems and markets. For those time scales, outputs of numerical weather prediction models are usually overlooked even though they should provide valuable information on higher scales dynamics. In this work, we combine those outputs with local observations using machine learning. So as to make the results usable for practitioners, we focus on simple and well known methods which can handle a high volume of data. We study first variable selection through two simple techniques, a linear one and a nonlinear one. Then we exploit those results to forecast wind speed and wind power still with an emphasis on linear models versus nonlinear ones. For the wind power prediction, we also compare the indirect approach (wind speed predictions passed through a power curve) and the indirect one (directly predict wind power).
翻訳日:2022-04-21 13:53:11 公開日:2022-04-20
# ハイブリッドLSTM MDNを用いた都市全体での自転車走行量の推定

Estimating city-wide hourly bicycle flow using a hybrid LSTM MDN ( http://arxiv.org/abs/2204.09620v1 )

ライセンス: Link先を確認
Marcus Skyum Myhrmann and Stefan Eriksen Mabit(参考訳) サイクリングは温室効果ガスの排出と大気汚染を低減し、公衆の健康を高めることができる。 このことを念頭に置いて、世界中の都市の政策立案者は自転車のモードシェアを改善することを目指している。 しかし、彼らはしばしばサイクリングの恐怖と認識されるリスクと戦っている。 自転車のモードシェアを増やそうとする試みには、自転車の安全性の向上など、多くの手段が伴う。 これは事故を取り巻く要因と結果の分析を必要とする。 しかし、自転車の安全に関する有意義な分析は、一般的にセグメントレベルで利用できない、あるいは利用できない正確な自転車のフローデータを必要とする。 したがって、安全エンジニアは、外部要因によるサイクリングトラフィックの変動を考慮しない集約変数やキャリブレーション要因に依存することが多い。 本稿では,コペンハーゲンにおける時間的自転車走行,天候条件,時間的・道路状況などをセグメントレベルで推定するために,ディープラーニングに基づくLong Short-Term Memory Mixture Density Network (LSTMMDN)を提案することにより,このギャップを埋める。 本手法は,キャリブレーション係数法における欠点に対処し,より正確な自転車交通推定を66-77\%向上させる。 サイクリング安全分析におけるより正確な自転車交通量の推定の影響を定量化するために,コペンハーゲンの自転車事故評価のための自転車事故リスクモデルを提案する。 モデルは使用中の露光変数を除いて同一である。 1つのモデルはLSTMMDNの推定値、キャリブレーションに基づく推定値、年間平均トラフィック推定値を用いて推定する。 その結果、より高度な自転車容積推定手法への投資は、安全性分析やその他のパフォーマンス対策の改善による、品質の向上、努力の軽減に寄与することが示された。

Cycling can reduce greenhouse gas emissions and air pollution and increase public health. With this in mind, policy-makers in cities worldwide seek to improve the bicycle mode-share. However, they often struggle against the fear and the perceived riskiness of cycling. Efforts to increase the bicycle's mode-share involve many measures, one of them being the improvement of cycling safety. This requires the analysis of the factors surrounding accidents and the outcome. However, meaningful analysis of cycling safety requires accurate bicycle flow data that is generally sparse or not even available at a segment level. Therefore, safety engineers often rely on aggregated variables or calibration factors that fail to account for variations in the cycling traffic caused by external factors. This paper fills this gap by presenting a Deep Learning based approach, the Long Short-Term Memory Mixture Density Network (LSTMMDN), to estimate hourly bicycle flow in Copenhagen, conditional on weather, temporal and road conditions at the segment level. This method addresses the shortcomings in the calibration factor method and results in 66-77\% more accurate bicycle traffic estimates. To quantify the impact of more accurate bicycle traffic estimates in cycling safety analysis, we estimate bicycle crash risk models to evaluate bicycle crashes in Copenhagen. The models are identical except for the exposure variables being used. One model is estimated using the LSTMMDN estimates, one using the calibration-based estimates, and one using yearly mean traffic estimates. The results show that investing in more advanced methods for obtaining bicycle volume estimates can benefit the quality, mitigating efforts by improving safety analyses and other performance measures.
翻訳日:2022-04-21 13:52:56 公開日:2022-04-20
# 言語モデル融合asrにおける意図しない記憶の検出

Detecting Unintended Memorization in Language-Model-Fused ASR ( http://arxiv.org/abs/2204.09606v1 )

ライセンス: Link先を確認
W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews(参考訳) エンド・ツー・エンド(E2E)モデルは、しばしば浅い融合を通じて言語モデル(LM)を伴い、その全体的な品質を高め、稀な単語の認識を促進する。 同時に、いくつかの先行研究により、LMはトレーニングデータに稀な、またはユニークなシーケンスを意図せずに記憶する可能性があることが示されている。 本研究では,lm への直接アクセスとは対照的に,ブラックボックス (クエリ) が lm-fused speech recognitionr にのみアクセスした場合に,lm トレーニングデータ中のランダムテキストシーケンス (カナリアと呼ぶ) の記憶を検出するフレームワークを設計する。 変圧器lmと融合した製造グレードのコンフォーメータrnn-t e2eモデルにおいて,300m例のlmトレーニングデータから,単発カナリアの暗記を検出可能であることを示す。 また, プライバシー保護の動機として, 全体的な品質を損なうことなく, グラデーション単位のLMトレーニングにより, 記憶度が大幅に低下することを示す。

End-to-end (E2E) models are often being accompanied by language models (LMs) via shallow fusion for boosting their overall quality as well as recognition of rare words. At the same time, several prior works show that LMs are susceptible to unintentionally memorizing rare or unique sequences in the training data. In this work, we design a framework for detecting memorization of random textual sequences (which we call canaries) in the LM training data when one has only black-box (query) access to LM-fused speech recognizer, as opposed to direct access to the LM. On a production-grade Conformer RNN-T E2E model fused with a Transformer LM, we show that detecting memorization of singly-occurring canaries from the LM training data of 300M examples is possible. Motivated to protect privacy, we also show that such memorization gets significantly reduced by per-example gradient-clipped LM training without compromising overall quality.
翻訳日:2022-04-21 13:52:29 公開日:2022-04-20
# 注意・アライメントネットワークによる効率的高ダイナミックレンジ画像復元

Efficient Progressive High Dynamic Range Image Restoration via Attention and Alignment Network ( http://arxiv.org/abs/2204.09213v1 )

ライセンス: Link先を確認
Gaocheng Yu, Jin Zhang, Zhe Ma, Hongbin Wang(参考訳) HDRは計算写真技術の重要部分である。 本稿では,ntire 2022 hdrトラック1とトラック2に対して,高効率注意誘導型プログレッシブネットワーク(eapnet)と呼ばれる軽量ニューラルネットワークを提案する。 特徴抽出のための多次元軽量符号化モジュールを提案する。 また,maccとpsnrを動的にチューニングするためのプログレッシブプラグアンドプレイモジュールであるprogressive dilated u-shape block (pdub)を提案する。 最後に,DCN(Deformable Convolutional Network)の代わりに,高速かつ低消費電力な機能アライメントモジュールを用いて誤調整問題に対処する。 実験の結果,本手法はms-PSNR法とPSNR法に比較して,MAccの約20倍の圧縮を実現していることがわかった。 テストフェーズでは、両方のトラックの2位を獲得しました。 図1。 NTIRE 2022 HDR Challengeの可視化結果を示す。

HDR is an important part of computational photography technology. In this paper, we propose a lightweight neural network called Efficient Attention-and-alignment-guided Progressive Network (EAPNet) for the challenge NTIRE 2022 HDR Track 1 and Track 2. We introduce a multi-dimensional lightweight encoding module to extract features. Besides, we propose Progressive Dilated U-shape Block (PDUB) that can be a progressive plug-and-play module for dynamically tuning MAccs and PSNR. Finally, we use fast and low-power feature-align module to deal with misalignment problem in place of the time-consuming Deformable Convolutional Network (DCN). The experiments show that our method achieves about 20 times compression on MAccs with better mu-PSNR and PSNR compared to the state-of-the-art method. We got the second place of both two tracks during the testing phase. Figure1. shows the visualized result of NTIRE 2022 HDR challenge.
翻訳日:2022-04-21 13:52:07 公開日:2022-04-20
# (参考訳) ディープラーニングは非パラメトリック回帰(nonparametric regression)を満たしている。

Deep Learning meets Nonparametric Regression: Are Weight-Decayed DNNs Locally Adaptive? ( http://arxiv.org/abs/2204.09664v1 )

ライセンス: CC BY 4.0
Kaiqi Zhang and Yu-Xiang Wang(参考訳) 本研究では,古典的非パラメトリック回帰問題のレンズからニューラルネットワーク(NN)の理論を考察し,不均一な滑らかさを持つ関数を適応的に推定するNNの能力に着目した。 既存の作業では、関数空間とサンプルサイズに基づいてNNアーキテクチャをチューニングする必要がある。 深層ReLUネットワークの"Parallel NN"変種を考えると、標準ウェイト崩壊は、エンドツーエンドの学習関数基底の係数ベクトルである辞書の$\ell_p$-sparsity(0<p<1$)の促進と同値であることを示す。 この等価性を用いて、ウェイト崩壊のみをチューニングすることにより、パラレルNNはベソフクラスとBVクラスの両方のミニマックスレートに任意に近似する推定誤差を達成できることを示す。 特に、NNがより深くなるにつれて、ミニマックスに指数関数的に近づく。 私たちの研究は、なぜ奥行きが重要か、なぜnnがカーネルメソッドよりも強力なのか、新しい光を当てています。

We study the theory of neural network (NN) from the lens of classical nonparametric regression problems with a focus on NN's ability to adaptively estimate functions with heterogeneous smoothness --- a property of functions in Besov or Bounded Variation (BV) classes. Existing work on this problem requires tuning the NN architecture based on the function spaces and sample sizes. We consider a "Parallel NN" variant of deep ReLU networks and show that the standard weight decay is equivalent to promoting the $\ell_p$-sparsity ($0<p<1$) of the coefficient vector of an end-to-end learned function bases, i.e., a dictionary. Using this equivalence, we further establish that by tuning only the weight decay, such Parallel NN achieves an estimation error arbitrarily close to the minimax rates for both the Besov and BV classes. Notably, it gets exponentially closer to minimax optimal as the NN gets deeper. Our research sheds new lights on why depth matters and how NNs are more powerful than kernel methods.
翻訳日:2022-04-21 13:50:56 公開日:2022-04-20
# ディープネットワークにおけるグラフ畳み込みの効果

Effects of Graph Convolutions in Deep Networks ( http://arxiv.org/abs/2204.09297v1 )

ライセンス: Link先を確認
Aseem Baranwal, Kimon Fountoulakis, Aukosh Jagannath(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフィカル情報を伴う分類問題の解決に使用される最も一般的なアーキテクチャの1つである。 多層ネットワークにおけるグラフ畳み込みの効果に関する厳密な理論的理解を示す。 確率ブロックモデルと非線形分離可能なガウス混合モデルのノード分類問題を通じて,これらの効果について検討する。 まず、単一グラフ畳み込みは、複数の層ネットワークがデータを少なくとも1/\sqrt[4]{\mathbb{e}{\rm deg}}$の係数で分類できる手段の間の距離の配置を広げることを示す。 第二に、グラフ密度がわずかに強くなると、2つのグラフ畳み込みがこの因子を少なくとも1/\sqrt[4]{n}$に改善する。 最後に,ネットワーク層間の異なる組み合わせに配置されたグラフ畳み込みの性能に関する理論的および実証的な知見を提供し,その性能は配置のすべての組み合わせと相互に類似していると結論付けた。 結果を示す合成データと実世界のデータの両方について広範な実験を行った。

Graph Convolutional Networks (GCNs) are one of the most popular architectures that are used to solve classification problems accompanied by graphical information. We present a rigorous theoretical understanding of the effects of graph convolutions in multi-layer networks. We study these effects through the node classification problem of a non-linearly separable Gaussian mixture model coupled with a stochastic block model. First, we show that a single graph convolution expands the regime of the distance between the means where multi-layer networks can classify the data by a factor of at least $1/\sqrt[4]{\mathbb{E}{\rm deg}}$, where $\mathbb{E}{\rm deg}$ denotes the expected degree of a node. Second, we show that with a slightly stronger graph density, two graph convolutions improve this factor to at least $1/\sqrt[4]{n}$, where $n$ is the number of nodes in the graph. Finally, we provide both theoretical and empirical insights into the performance of graph convolutions placed in different combinations among the layers of a network, concluding that the performance is mutually similar for all combinations of the placement. We present extensive experiments on both synthetic and real-world data that illustrate our results.
翻訳日:2022-04-21 13:47:44 公開日:2022-04-20
# 最大親鎖が与えられたベイズネットワークのノード上のガウス混合モデル

Gaussian mixture model on nodes of Bayesian network given maximal parental cliques ( http://arxiv.org/abs/2204.09532v1 )

ライセンス: Link先を確認
Yiran Dong Chuanhou Gao(参考訳) 本稿では,線形ガウスモデルの代わりにガウス混合モデルを用いてベイズネットワークの各ノードの分布に適合する。 ベイジアンネットワークにおけるガウス混合モデルの使用方法と理由を説明する。 一方,混合モデルを最適化する2重反復アルゴリズムという新しい手法を提案するが,この2重反復アルゴリズムは期待最大化アルゴリズムと勾配降下アルゴリズムを組み合わせたもので,ベイズネットワークと混合モデルで完全に動作する。 実験では、ガウス混合モデルと最適化アルゴリズムを、実データ集合上で異なる構造学習アルゴリズムによって生成される異なるグラフ上でテストし、各実験の詳細を与える。

This paper uses Gaussian mixture model instead of linear Gaussian model to fit the distribution of every node in Bayesian network. We will explain why and how we use Gaussian mixture models in Bayesian network. Meanwhile we propose a new method, called double iteration algorithm, to optimize the mixture model, the double iteration algorithm combines the expectation maximization algorithm and gradient descent algorithm, and it performs perfectly on the Bayesian network with mixture models. In experiments we test the Gaussian mixture model and the optimization algorithm on different graphs which is generated by different structure learning algorithm on real data sets, and give the details of every experiment.
翻訳日:2022-04-21 13:47:23 公開日:2022-04-20
# SurvLatent ODE : 経時的データに競合する危険を伴うニューラルODEに基づく時系列モデルによる癌関連深部静脈血栓症(DVT)予測の改善

SurvLatent ODE : A Neural ODE based time-to-event model with competing risks for longitudinal data improves cancer-associated Deep Vein Thrombosis (DVT) prediction ( http://arxiv.org/abs/2204.09633v1 )

ライセンス: Link先を確認
Intae Moon, Stefan Groha, Alexander Gusev(参考訳) 電子健康記録(ehr)データによる臨床成果予測の効果的な学習は、不規則な時間経過で記録された特徴とフォローアップへの損失と、死亡や疾患の進行といった競合イベントが原因でしばしば困難である。 そこで本研究では,正規微分方程式に基づくリカレントニューラルネットワーク(ODE-RNN)をエンコーダとして採用し,不規則なサンプルデータの下での潜在表現を効果的にパラメータ化する生成時間対イベントモデルSurvLatent ODEを提案する。 そこで,本モデルでは,事象特異的ハザード関数の形状を指定せずに,複数の競合イベントの生存時間を柔軟に推定する。 本研究は,本研究のモデルであるmemdom-iiiにおいて,病院の死亡率の予測と深部静脈血栓症(dvt)発症の予測に関するdana-farber cancer institute(dfci)のデータと,がん患者の生命を脅かす合併症であるdvt(deep vein thrombosis, 深部静脈血栓症)の発症を比較検討した。 survlatent odeはdvtリスクグループを階層化するための現在の臨床標準khoranaリスクスコアを上回っている。

Effective learning from electronic health records (EHR) data for prediction of clinical outcomes is often challenging because of features recorded at irregular timesteps and loss to follow-up as well as competing events such as death or disease progression. To that end, we propose a generative time-to-event model, SurvLatent ODE, which adopts an Ordinary Differential Equation-based Recurrent Neural Networks (ODE-RNN) as an encoder to effectively parameterize a latent representation under irregularly sampled data. Our model then utilizes the latent representation to flexibly estimate survival times for multiple competing events without specifying shapes of event-specific hazard function. We demonstrate competitive performance of our model on MIMIC-III, a freely-available longitudinal dataset collected from critical care units, on predicting hospital mortality as well as the data from the Dana-Farber Cancer Institute (DFCI) on predicting onset of Deep Vein Thrombosis (DVT), a life-threatening complication for patients with cancer, with death as a competing event. SurvLatent ODE outperforms the current clinical standard Khorana Risk scores for stratifying DVT risk groups.
翻訳日:2022-04-21 13:47:12 公開日:2022-04-20
# 連続環境における視覚・言語ナビゲーションのためのsim-2-sim転送

Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2204.09667v1 )

ライセンス: Link先を確認
Jacob Krantz and Stefan Lee(参考訳) VLN(Vision-and-Language Navigation)の最近の研究は、ナビゲーションを抽象化するトポロジカル環境上に構築された標準的なVLN設定と、エージェントが低レベルなアクションを使用して連続的な3D環境をナビゲートしなければならないVLN-CEという2つの環境パラダイムを提示した。 高レベルなタスクと基礎となる命令パスデータを共有するにもかかわらず、VLN-CEのパフォーマンスはVLNよりもかなり遅れている。 本稿では, VLN の抽象環境から VLN-CE の連続環境へエージェントを移動させることにより, このギャップを解明する。 このsim-2-simトランスファーは非常に効果的であり,VLN-CEの先行技術よりも+12%の成功率の向上が見られた。 これはこの方向の可能性を示しているが、転送は抽象的な設定でエージェントの本来の性能を完全に保持していない。 性能劣化の原因となる相違点を特定するための一連の実験を行い、さらなる改善に向けた明確な方向性を示す。

Recent work in Vision-and-Language Navigation (VLN) has presented two environmental paradigms with differing realism -- the standard VLN setting built on topological environments where navigation is abstracted away, and the VLN-CE setting where agents must navigate continuous 3D environments using low-level actions. Despite sharing the high-level task and even the underlying instruction-path data, performance on VLN-CE lags behind VLN significantly. In this work, we explore this gap by transferring an agent from the abstract environment of VLN to the continuous environment of VLN-CE. We find that this sim-2-sim transfer is highly effective, improving over the prior state of the art in VLN-CE by +12% success rate. While this demonstrates the potential for this direction, the transfer does not fully retain the original performance of the agent in the abstract setting. We present a sequence of experiments to identify what differences result in performance degradation, providing clear directions for further improvement.
翻訳日:2022-04-21 13:46:45 公開日:2022-04-20
# インスタンスレベル予測を用いた介入型マルチインスタンス学習

Interventional Multi-Instance Learning with Deconfounded Instance-Level Prediction ( http://arxiv.org/abs/2204.09204v1 )

ライセンス: Link先を確認
Tiancheng Lin, Hongteng Xu, Canqian Yang and Yi Xu(参考訳) インスタンスのバッグの予測にマルチインスタンス学習(MIL)を適用する場合、インスタンスの予測精度はインスタンス自体だけでなく、対応するバッグのコンテキストにも依存することが多い。 因果推論の観点からは、このようなバッグコンテクストは共起者として機能し、モデルのロバスト性や解釈可能性の問題を引き起こす可能性がある。 この問題に焦点をあて,未確立のインスタンスレベルの予測を実現するために,新しい介入型マルチインスタンス学習(IMIL)フレームワークを提案する。 従来の確率ベース戦略とは異なり、因果的介入に基づく期待最大化(em)アルゴリズムを設計し、トレーニングフェーズにおける堅牢なインスタンス選択を提供し、バッグコンテキスト先行によるバイアスを抑制する。 病理画像解析実験により,il法は偽陽性を実質的に減少させ,最先端mil法を上回った。

When applying multi-instance learning (MIL) to make predictions for bags of instances, the prediction accuracy of an instance often depends on not only the instance itself but also its context in the corresponding bag. From the viewpoint of causal inference, such bag contextual prior works as a confounder and may result in model robustness and interpretability issues. Focusing on this problem, we propose a novel interventional multi-instance learning (IMIL) framework to achieve deconfounded instance-level prediction. Unlike traditional likelihood-based strategies, we design an Expectation-Maximization (EM) algorithm based on causal intervention, providing a robust instance selection in the training phase and suppressing the bias caused by the bag contextual prior. Experiments on pathological image analysis demonstrate that our IMIL method substantially reduces false positives and outperforms state-of-the-art MIL methods.
翻訳日:2022-04-21 13:46:07 公開日:2022-04-20
# 一度限りのネットワークをトレーニングする際の干渉は存在するか?

Does Interference Exist When Training a Once-For-All Network? ( http://arxiv.org/abs/2204.09210v1 )

ライセンス: Link先を確認
Jordan Shipard, Arnold Wiliem, Clinton Fookes(参考訳) once-For-All(OFA)メソッドは、トレーニング済みニューラルネットワークモデルを複数のターゲットプラットフォームにデプロイするための優れた経路を提供する。 一度トレーニングすれば、サブネットはスーパーネット(アーキテクチャとトレーニングウェイトの両方)から派生し、再トレーニングや微調整をほとんど行わず、ターゲットプラットフォームに直接デプロイすることができる。 サブネット人口のトレーニングには、トレーニング中の干渉による負の影響を制限するために、プログレッシブ・シンキング(PS)と呼ばれる新しいトレーニング手法を使用する。 トレーニング中に高い干渉が生じると、サブネット人口は減少すると考えられている。 この研究では、この干渉効果をもう一度見ていく。 驚くべきことに、干渉緩和戦略がサブネット全体の人口パフォーマンスに大きな影響を与えないことがわかりました。 その代わり、トレーニング中にサブネットアーキテクチャの選択バイアスがより重要な側面であることに気付きました。 これを示すために、干渉効果を緩和しないRandom Subnet Sampling (RSS) という単純なyet- Effective法を提案する。 緩和されていないにもかかわらず、RSSは4つの小口径データセットにおいてPSよりもパフォーマンスの良いサブネット人口を生成することができ、これらのデータセットでは干渉効果が重要な役割を果たさないことを示唆している。 その単純さから、rssはpsに比べてトレーニング時間を1.9\times$削減できる。 6.1\times$ reduceは、RSSトレーニングのエポック数が減少すると、適切なパフォーマンスの低下でも達成できる。 コードはhttps://github.com/jordan-hs/rss-interference-cvprw2022。

The Once-For-All (OFA) method offers an excellent pathway to deploy a trained neural network model into multiple target platforms by utilising the supernet-subnet architecture. Once trained, a subnet can be derived from the supernet (both architecture and trained weights) and deployed directly to the target platform with little to no retraining or fine-tuning. To train the subnet population, OFA uses a novel training method called Progressive Shrinking (PS) which is designed to limit the negative impact of interference during training. It is believed that higher interference during training results in lower subnet population accuracies. In this work we take a second look at this interference effect. Surprisingly, we find that interference mitigation strategies do not have a large impact on the overall subnet population performance. Instead, we find the subnet architecture selection bias during training to be a more important aspect. To show this, we propose a simple-yet-effective method called Random Subnet Sampling (RSS), which does not have mitigation on the interference effect. Despite no mitigation, RSS is able to produce a better performing subnet population than PS in four small-to-medium-sized datasets; suggesting that the interference effect does not play a pivotal role in these datasets. Due to its simplicity, RSS provides a $1.9\times$ reduction in training times compared to PS. A $6.1\times$ reduction can also be achieved with a reasonable drop in performance when the number of RSS training epochs are reduced. Code available at https://github.com/Jordan-HS/RSS-Interference-CVPRW2022.
翻訳日:2022-04-21 13:45:52 公開日:2022-04-20
# aleatoric と epistemic uncertainty disentanglement のより深い考察

A Deeper Look into Aleatoric and Epistemic Uncertainty Disentanglement ( http://arxiv.org/abs/2204.09308v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro and Daniel Saromo(参考訳) ニューラルネットワークは多くのタスクでユビキタスですが、予測を信頼することはオープンな問題です。 不確かさの定量化は多くの応用に必要であり、不確実性や認識の不確実性が最適である。 本稿では,異なる不確実性定量化法を用いて不連続不確実性を生成する方法を一般化し,不連続不確実性を生成する能力を評価する。 また,flipoutのような手法は認識的不確かさをゼロにし,アリュータ的不確実性は分配外設定では信頼性が低く,アンサンブルは全体として最良の不一致品質を提供する。 また,サンプリングソフトマックス関数におけるサンプルパラメータ数による誤差についても検討し,N>100サンプルを推奨する。 当社の定式化と成果は,不確実性の選択や不確実性の利用拡大に寄与すると同時に,このトピックに対するさらなる研究の動機となることを期待する。

Neural networks are ubiquitous in many tasks, but trusting their predictions is an open issue. Uncertainty quantification is required for many applications, and disentangled aleatoric and epistemic uncertainties are best. In this paper, we generalize methods to produce disentangled uncertainties to work with different uncertainty quantification methods, and evaluate their capability to produce disentangled uncertainties. Our results show that: there is an interaction between learning aleatoric and epistemic uncertainty, which is unexpected and violates assumptions on aleatoric uncertainty, some methods like Flipout produce zero epistemic uncertainty, aleatoric uncertainty is unreliable in the out-of-distribution setting, and Ensembles provide overall the best disentangling quality. We also explore the error produced by the number of samples hyper-parameter in the sampling softmax function, recommending N > 100 samples. We expect that our formulation and results help practitioners and researchers choose uncertainty methods and expand the use of disentangled uncertainties, as well as motivate additional research into this topic.
翻訳日:2022-04-21 13:44:28 公開日:2022-04-20
# ソナー画像分類のための自己教師あり学習

Self-supervised Learning for Sonar Image Classification ( http://arxiv.org/abs/2204.09323v1 )

ライセンス: Link先を確認
Alan Preciado-Grijalva and Bilal Wehbe and Miguel Bande Firvida and Matias Valdenegro-Toro(参考訳) 自己教師付き学習は、大きなラベル付きデータセットを必要とせずに画像表現を学習するための強力なアプローチであることが証明された。 水中ロボットにとって、ソナー画像分類のような知覚能力を改善するためにコンピュータビジョンアルゴリズムを設計することは非常に興味深い。 ソナー画像の秘密性やソナー画像の解釈が困難であることから,教師あり学習アルゴリズムを訓練するための大規模ラベル付きソナーデータセットの作成は困難である。 本研究では,3つの自己教師型学習手法(RotNet,Denoising Autoencoders,Jigsaw)による高品質なソナー画像表現の学習の可能性について検討する。 実生活ソナー画像データセットの事前学習および転送学習結果を提案する。 以上の結果から,自己教師付き事前学習は3つの方法すべてにおいて,事前教師付き学習に匹敵する分類性能を示すことが示唆された。 コードと自己教師付き事前学習モデルはhttps://github.com/agrija9/ssl-sonar-imagesで入手できる。

Self-supervised learning has proved to be a powerful approach to learn image representations without the need of large labeled datasets. For underwater robotics, it is of great interest to design computer vision algorithms to improve perception capabilities such as sonar image classification. Due to the confidential nature of sonar imaging and the difficulty to interpret sonar images, it is challenging to create public large labeled sonar datasets to train supervised learning algorithms. In this work, we investigate the potential of three self-supervised learning methods (RotNet, Denoising Autoencoders, and Jigsaw) to learn high-quality sonar image representation without the need of human labels. We present pre-training and transfer learning results on real-life sonar image datasets. Our results indicate that self-supervised pre-training yields classification performance comparable to supervised pre-training in a few-shot transfer learning setup across all three methods. Code and self-supervised pre-trained models are be available at https://github.com/agrija9/ssl-sonar-images
翻訳日:2022-04-21 13:44:04 公開日:2022-04-20
# 因果性に基づくニューラルネットワーク修復

Causality-based Neural Network Repair ( http://arxiv.org/abs/2204.09274v1 )

ライセンス: Link先を確認
Bing Sun, Jun Sun, Hong Long Pham, Jie Shi(参考訳) ニューラルネットワークは、幅広い応用において大きな成果を上げてきた。 広範にわたる採用は、依存性と信頼性の懸念も高めている。 従来の意思決定プログラムと同様に、ニューラルネットワークには修復が必要な欠陥がある。 この欠陥は、安全でない行動、セキュリティ上の懸念、あるいは社会的な不公平な影響を引き起こす可能性がある。 本稿では,公平性やバックドアの欠如といった望ましい特性のために,ニューラルネットワークを修復する問題に対処する。 目標は、与えられたニューラルネットワークのパラメータ(すなわち重み付け)を(最小)調整することで、その特性を満たすニューラルネットワークを構築することである。 具体的には、因果性に基づくニューラルネットワーク修復技術であるCARE(\textbf{CA}usality-based \textbf{RE}pair)を提案する。 1)因果性に基づく障害局所化を行い、「罪」ニューロンを識別し、 2) 特定ニューロンのパラメータを最適化し, 誤動作を低減する。 バックドア除去, ニューラルネットワーク修復, 公正性, 安全性など, 様々なタスクにおいてCAREを実証的に評価した。 実験の結果,CAREは全ニューラルネットワークを効率的かつ効果的に修復できることがわかった。 フェアネスの修理作業では、CAREは平均で61.91 %のフェアネスを改善できた。 バックドア削除タスクの場合、CAREは攻撃成功率を9,8 %$から1 %$未満に下げる。 安全財産の修理作業では、CAREは財産侵害率を$1\%以下に下げる。 また、因果性に基づく障害の局所化により、CAREの修復は誤動作に焦点を当て、ニューラルネットワークの精度を保っている。

Neural networks have had discernible achievements in a wide range of applications. The wide-spread adoption also raises the concern of their dependability and reliability. Similar to traditional decision-making programs, neural networks can have defects that need to be repaired. The defects may cause unsafe behaviors, raise security concerns or unjust societal impacts. In this work, we address the problem of repairing a neural network for desirable properties such as fairness and the absence of backdoor. The goal is to construct a neural network that satisfies the property by (minimally) adjusting the given neural network's parameters (i.e., weights). Specifically, we propose CARE (\textbf{CA}usality-based \textbf{RE}pair), a causality-based neural network repair technique that 1) performs causality-based fault localization to identify the `guilty' neurons and 2) optimizes the parameters of the identified neurons to reduce the misbehavior. We have empirically evaluated CARE on various tasks such as backdoor removal, neural network repair for fairness and safety properties. Our experiment results show that CARE is able to repair all neural networks efficiently and effectively. For fairness repair tasks, CARE successfully improves fairness by $61.91\%$ on average. For backdoor removal tasks, CARE reduces the attack success rate from over $98\%$ to less than $1\%$. For safety property repair tasks, CARE reduces the property violation rate to less than $1\%$. Results also show that thanks to the causality-based fault localization, CARE's repair focuses on the misbehavior and preserves the accuracy of the neural networks.
翻訳日:2022-04-21 13:43:08 公開日:2022-04-20
# モデルベース協調型マルチエージェント強化学習

Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2204.09418v1 )

ライセンス: Link先を確認
Zhiwei Xu, Dapeng Li, Bin Zhang, Yuan Zhan, Yunpeng Bai, Guoliang Fan(参考訳) 近年,モデルベースエージェントは,単一エージェント環境における同じ計算予算とトレーニング時間を用いたモデルフリーエージェントと比較して,性能が向上している。 しかし,マルチエージェントシステムの複雑さから,環境モデルを学ぶことは非常に困難である。 モデルに基づく手法がマルチエージェントタスクに適用されると、重要な合成エラーが学習プロセスを妨げる可能性がある。 本稿では,値分解法に基づく暗黙モデルに基づくマルチエージェント強化学習手法を提案する。 この方法では、エージェントが学習した仮想環境と対話し、想定された将来の状態に応じて現在の状態値を評価することができる。 本手法は任意のマルチエージェント値分解法に適用できる。 実験結果は, 部分可観測マルコフ決定過程領域においてサンプル効率が向上することを示す。

Recently, model-based agents have achieved better performance compared with model-free ones using the same computational budget and training time in single-agent environments. However, due to the complexity of multi-agent systems, it is very difficult to learn the model of the environment. When model-based methods are applied to multi-agent tasks, the significant compounding error may hinder the learning process. In this paper, we propose an implicit model-based multi-agent reinforcement learning method based on value decomposition methods. Under this method, agents can interact with the learned virtual environment and evaluate the current state value according to imagined future states, which makes agents have foresight. Our method can be applied to any multi-agent value decomposition method. The experimental results show that our method improves the sample efficiency in partially observable Markov decision process domains.
翻訳日:2022-04-21 13:42:30 公開日:2022-04-20
# SAAC: アクター批判の対抗ゲームとしての安全な強化学習

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics ( http://arxiv.org/abs/2204.09424v1 )

ライセンス: Link先を確認
Yannis Flet-Berliac and Debabrota Basu(参考訳) 不確実性下での逐次的意思決定問題には強化学習(rl)が有効であるが、リスクや安全性が拘束力の制約である現実のシステムでは、まだ成功していない。 本稿では,安全制約付きRL問題を非ゼロサムゲームとして定式化する。 最大エントロピーRLで展開する一方で、この定式化はSAACと呼ばれるソフトアクター批判フレームワークを安全に誘導する。 saacでは、敵は安全制約を破ることを目標とし、rlエージェントは敵の方針に従って制約付き値関数を最大化することを目指している。 エージェントの価値関数に対する安全性の制約は、エージェントと相手のポリシーの間の反発項としてのみ現れる。 従来のアプローチとは異なり、SAACは安全な探索、平均分散リスク感度、CVaRのようなコヒーレントリスク感度といった異なる安全性基準に対処することができる。 我々は、これらの制約に対する敵の設計を説明する。 そして,これらの変化のそれぞれにおいて,エージェントは,タスクの学習に加えて,敵の安全でない行動と区別することを示す。 最後に, リスク逆分布RLやリスクニュートラルなソフトアクター批判アルゴリズムよりも, 安全制約を満たすために, SAACがより高速な収束, 効率の向上, 失敗の少ないことを実証する。

Although Reinforcement Learning (RL) is effective for sequential decision-making problems under uncertainty, it still fails to thrive in real-world systems where risk or safety is a binding constraint. In this paper, we formulate the RL problem with safety constraints as a non-zero-sum game. While deployed with maximum entropy RL, this formulation leads to a safe adversarially guided soft actor-critic framework, called SAAC. In SAAC, the adversary aims to break the safety constraint while the RL agent aims to maximize the constrained value function given the adversary's policy. The safety constraint on the agent's value function manifests only as a repulsion term between the agent's and the adversary's policies. Unlike previous approaches, SAAC can address different safety criteria such as safe exploration, mean-variance risk sensitivity, and CVaR-like coherent risk sensitivity. We illustrate the design of the adversary for these constraints. Then, in each of these variations, we show the agent differentiates itself from the adversary's unsafe actions in addition to learning to solve the task. Finally, for challenging continuous control tasks, we demonstrate that SAAC achieves faster convergence, better efficiency, and fewer failures to satisfy the safety constraints than risk-averse distributional RL and risk-neutral soft actor-critic algorithms.
翻訳日:2022-04-21 13:42:16 公開日:2022-04-20
# (参考訳) ゼロショット分類器におけるラベル記述の教師なしランキングと集計

Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot Classifiers ( http://arxiv.org/abs/2204.09481v1 )

ライセンス: CC BY 4.0
Angelo Basile, Marc Franco-Salvador and Paolo Rosso(参考訳) ラベル記述に基づくゼロショットテキスト分類器は、入力テキストとラベルの集合を同じ空間に埋め込む:コサイン類似性などの指標を使用して、入力テキストと最も類似したラベル記述を予測ラベルとして選択することができる。 真のゼロショットセットアップでは、開発セットがないため、適切なラベル記述の設計が難しい。 本研究では,評価分析を繰り返す確率論的モデルを用いて,教師なしの方法で最高のラベル記述を選択する方法について考察する。 提案手法は,様々なデータセットとタスク(強調,話題,スタンス)で評価する。 さらに,複数のノイズの多いラベル記述を集約して性能を向上できることを示す。

Zero-shot text classifiers based on label descriptions embed an input text and a set of labels into the same space: measures such as cosine similarity can then be used to select the most similar label description to the input text as the predicted label. In a true zero-shot setup, designing good label descriptions is challenging because no development set is available. Inspired by the literature on Learning with Disagreements, we look at how probabilistic models of repeated rating analysis can be used for selecting the best label descriptions in an unsupervised fashion. We evaluate our method on a set of diverse datasets and tasks (sentiment, topic and stance). Furthermore, we show that multiple, noisy label descriptions can be aggregated to boost the performance.
翻訳日:2022-04-21 13:40:41 公開日:2022-04-20
# LingYi:マルチモーダル知識グラフに基づく医療会話質問応答システム

LingYi: Medical Conversational Question Answering System based on Multi-modal Knowledge Graphs ( http://arxiv.org/abs/2204.09220v1 )

ライセンス: Link先を確認
Fei Xia, Bin Li, Yixuan Weng, Shizhu He, Kang Liu, Bin Sun, Shutao Li and Jun Zhao(参考訳) 医療対話システムは、特にパンデミック時の医師の負担を軽減し、医療の効率を向上させることができる。 本稿では,マルチモーダル知識グラフに基づく医療会話型質問応答システム(CQA)について述べる。 本システムでは,医用トリアージ,コンサルテーション,画像・テキスト・ドラッグ・レコメンデーション,記録などの自動医療手順を利用する。 患者と知識接地対話を行うため,まず中国医学多様知識グラフ (cm3kg) を構築し,大規模中国医学cqa (cmcqa) データセットを収集した。 既存の医療質問応答システムと比較すると,医療機関の曖昧さや医療対話生成などの最先端技術が採用されており,患者に医療サービスを提供しやすくなっている。 さらに、バックエンドモデルとフロントエンドのWebページを含むコードをhttps://github.com/WENGSYX/LingYi.comでオープンソース化しました。 CM3KG at https://github.com/WENGSYX/CM3KG や CMCQA at https://github.com/WENGSYX/CMCQA などのデータセットもリリースされ、今後の研究をさらに促進している。

The medical conversational system can relieve the burden of doctors and improve the efficiency of healthcare, especially during the pandemic. This paper presents a medical conversational question answering (CQA) system based on the multi-modal knowledge graph, namely "LingYi", which is designed as a pipeline framework to maintain high flexibility. Our system utilizes automated medical procedures including medical triage, consultation, image-text drug recommendation and record. To conduct knowledge-grounded dialogues with patients, we first construct a Chinese Medical Multi-Modal Knowledge Graph (CM3KG) and collect a large-scale Chinese Medical CQA (CMCQA) dataset. Compared with the other existing medical question-answering systems, our system adopts several state-of-the-art technologies including medical entity disambiguation and medical dialogue generation, which is more friendly to provide medical services to patients. In addition, we have open-sourced our codes which contain back-end models and front-end web pages at https://github.com/WENGSYX/LingYi. The datasets including CM3KG at https://github.com/WENGSYX/CM3KG and CMCQA at https://github.com/WENGSYX/CMCQA are also released to further promote future research.
翻訳日:2022-04-21 13:30:54 公開日:2022-04-20
# 状況知覚誘導型イメージマットリング

Situational Perception Guided Image Matting ( http://arxiv.org/abs/2204.09276v1 )

ライセンス: Link先を確認
Bo Xu and Jiake Xie and Han Huang and Ziwen Li and Cheng Lu and Yandong Guo(参考訳) ほとんどの自動マット方式は、前景を背景から切り離そうとしている。 しかし、既存のマッティングデータセットの量と主観バイアスが不十分であるため、与えられた画像におけるオブジェクトからオブジェクトへの関係とオブジェクトから環境への意味的関係を十分に探求することは困難である。 本稿では,マットアノテーションの主観的偏見を緩和し,視覚的・テクスチャ的タスクから抽出したより優れたグローバル・サリエンシのための十分な状況認識情報をキャプチャする状況認識ガイド画像マッチング(SPG-IM)手法を提案する。 SPG-IMは画像マッチングの主観的性質と高価なアノテーションを補うことにより、オブジェクト間やオブジェクト間サリエンシをよりよく関連付けることができる。 また,テキストセマンティックトランスフォーメーション(TST)モジュールを導入し,意味的特徴ストリームを効果的に変換し,統合して視覚的表現を導く。 さらに,多スケールの受容場と焦点を適応的に切り替えてグローバル・ローカルの細部を拡大するために,適応的焦点変換(AFT)リファインメントネットワークを提案する。 広範な実験により,視覚からテキストへのタスクにおける状況知覚指導の有効性が示され,本モデルは最先端手法を上回っている。 また、モデルにおける異なるコンポーネントの重要性を分析する。 コードはまもなくリリースされる。

Most automatic matting methods try to separate the salient foreground from the background. However, the insufficient quantity and subjective bias of the current existing matting datasets make it difficult to fully explore the semantic association between object-to-object and object-to-environment in a given image. In this paper, we propose a Situational Perception Guided Image Matting (SPG-IM) method that mitigates subjective bias of matting annotations and captures sufficient situational perception information for better global saliency distilled from the visual-to-textual task. SPG-IM can better associate inter-objects and object-to-environment saliency, and compensate the subjective nature of image matting and its expensive annotation. We also introduce a textual Semantic Transformation (TST) module that can effectively transform and integrate the semantic feature stream to guide the visual representations. In addition, an Adaptive Focal Transformation (AFT) Refinement Network is proposed to adaptively switch multi-scale receptive fields and focal points to enhance both global and local details. Extensive experiments demonstrate the effectiveness of situational perception guidance from the visual-to-textual tasks on image matting, and our model outperforms the state-of-the-art methods. We also analyze the significance of different components in our model. The code will be released soon.
翻訳日:2022-04-21 13:30:28 公開日:2022-04-20
# NFormer: 隣のトランスフォーマーでロバストな人物を再識別

NFormer: Robust Person Re-identification with Neighbor Transformer ( http://arxiv.org/abs/2204.09331v1 )

ライセンス: Link先を確認
Haochen Wang, Jiayi Shen, Yongtuo Liu, Yan Gao, Efstratios Gavves(参考訳) 人物の再識別は、堅牢で差別的な表現学習が不可欠である様々なカメラやシナリオで、高度に異なる設定の人物を検索することを目的としている。 ほとんどの研究は、単一の画像からの学習表現を考慮し、それら間の潜在的な相互作用を無視している。 しかし、id内変異が大きいため、そのような相互作用を無視すると通常、異常な特徴が生じる。 そこで本研究では,全ての入力画像間のインタラクションを明示的にモデル化するnformer(neighent transformer network)を提案する。 膨大な画像間の相互作用のモデリングは膨大な作業であり、多くの邪魔者を抱えているため、nformerは2つの新しいモジュール、ランドマークエージェントの注意と相互隣のsoftmaxを導入している。 特に、ランドマークエージェントの注意は、特徴空間にいくつかのランドマークがある低ランク分解によって、画像間の関係マップを効率的にモデル化する。 さらに、相反する隣のsoftmaxは、関係のある(すべてではなく)隣人のみにあまり注意を払わず、無関係な表現の干渉を緩和し、計算の負担を緩和する。 4つの大規模なデータセットの実験で、NFormerは新たな最先端技術を達成した。 コードは \url{https://github.com/haochenheheda/NFormer} でリリースされる。

Person re-identification aims to retrieve persons in highly varying settings across different cameras and scenarios, in which robust and discriminative representation learning is crucial. Most research considers learning representations from single images, ignoring any potential interactions between them. However, due to the high intra-identity variations, ignoring such interactions typically leads to outlier features. To tackle this issue, we propose a Neighbor Transformer Network, or NFormer, which explicitly models interactions across all input images, thus suppressing outlier features and leading to more robust representations overall. As modelling interactions between enormous amount of images is a massive task with lots of distractors, NFormer introduces two novel modules, the Landmark Agent Attention, and the Reciprocal Neighbor Softmax. Specifically, the Landmark Agent Attention efficiently models the relation map between images by a low-rank factorization with a few landmarks in feature space. Moreover, the Reciprocal Neighbor Softmax achieves sparse attention to relevant -- rather than all -- neighbors only, which alleviates interference of irrelevant representations and further relieves the computational burden. In experiments on four large-scale datasets, NFormer achieves a new state-of-the-art. The code is released at \url{https://github.com/haochenheheda/NFormer}.
翻訳日:2022-04-21 13:30:06 公開日:2022-04-20
# ppマッティング:高精度自然画像マッティング

PP-Matting: High-Accuracy Natural Image Matting ( http://arxiv.org/abs/2204.09433v1 )

ライセンス: Link先を確認
Guowei Chen, Yi Liu, Jian Wang, Juncai Peng, Yuying Hao, Lutao Chu, Shiyu Tang, Zewu Wu, Zeyu Chen, Zhiliang Yu, Yuning Du, Qingqing Dang, Xiaoguang Hu, Dianhai Yu(参考訳) 自然な画像マッチングは、基本的で挑戦的なコンピュータビジョンタスクである。 画像編集や合成に多くの応用がある。 近年、深層学習に基づくアプローチは画像マッチングにおいて大きな進歩を遂げている。 しかし、それらのほとんどは、ユーザから供給されたtrimapを補助入力として必要とし、現実世界のマットングアプリケーションを制限する。 トリマップフリーアプローチはいくつか提案されているが、整合性はトリマップベースアプローチに比べてまだ不十分である。 trimapのガイダンスがなければ、マットリングモデルは前景と後景の曖昧さに苦しめられ、遷移領域のぼやけた詳細を生成する。 本研究では,高精度な自然画像マット化を実現するためのトリマップフリーアーキテクチャであるpp-mattingを提案する。 提案手法は,高分解能ディテールブランチ (HRDB) を適用し,特徴解像度を一定に保ったまま,前景のきめ細かいディテールを抽出する。 また,意味的セグメンテーションサブタスクを採用した意味的文脈分岐(SCB)を提案する。 意味的文脈の欠如による局所的曖昧さから詳細な予測を防止する。 さらに,2つの有名なベンチマークである composition-1k と distinctions-646 について広範な実験を行った。 その結果,pp-mattingは従来の方法よりも優れていることがわかった。 さらに,本手法の実用化における優れた性能を示す,人間のマットングに関する質的評価を行う。 コードと事前トレーニングされたモデルは、PaddleSegで利用可能になる。

Natural image matting is a fundamental and challenging computer vision task. It has many applications in image editing and composition. Recently, deep learning-based approaches have achieved great improvements in image matting. However, most of them require a user-supplied trimap as an auxiliary input, which limits the matting applications in the real world. Although some trimap-free approaches have been proposed, the matting quality is still unsatisfactory compared to trimap-based ones. Without the trimap guidance, the matting models suffer from foreground-background ambiguity easily, and also generate blurry details in the transition area. In this work, we propose PP-Matting, a trimap-free architecture that can achieve high-accuracy natural image matting. Our method applies a high-resolution detail branch (HRDB) that extracts fine-grained details of the foreground with keeping feature resolution unchanged. Also, we propose a semantic context branch (SCB) that adopts a semantic segmentation subtask. It prevents the detail prediction from local ambiguity caused by semantic context missing. In addition, we conduct extensive experiments on two well-known benchmarks: Composition-1k and Distinctions-646. The results demonstrate the superiority of PP-Matting over previous methods. Furthermore, we provide a qualitative evaluation of our method on human matting which shows its outstanding performance in the practical application. The code and pre-trained models will be available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.
翻訳日:2022-04-21 13:29:40 公開日:2022-04-20
# まばらな混合専門家の表象崩壊について

On the Representation Collapse of Sparse Mixture of Experts ( http://arxiv.org/abs/2204.09179v1 )

ライセンス: Link先を確認
Zewen Chi, Li Dong, Shaohan Huang, Damai Dai, Shuming Ma, Barun Patra, Saksham Singhal, Payal Bajaj, Xia Song, Furu Wei(参考訳) 専門家のスパース混合物は、一定の計算オーバーヘッドを必要としながら、より大きなモデルの容量を提供する。 入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。 しかし、このようなルーティングメカニズムを学ぶことで、エキスパートセンタロイドの周りのトークンクラスタリングが促進され、表現の崩壊への傾向が示唆される。 本研究では,低次元超球面上でトークンと専門家間のルーティングスコアを推定する。 我々は,下流タスクにおける言語横断モデルの事前学習と微調整に関する広範囲な実験を行う。 7つの多言語ベンチマークにおける実験結果から,本手法は一貫して得られることがわかった。 また,モデルの表現とルーティングの挙動を総合的に解析する。 提案手法は,表現崩壊問題を緩和し,ベースライン混在手法よりも一貫したルーティングを実現する。

Sparse mixture of experts provides larger model capacity while requiring a constant computational overhead. It employs the routing mechanism to distribute input tokens to the best-matched experts according to their hidden representations. However, learning such a routing mechanism encourages token clustering around expert centroids, implying a trend toward representation collapse. In this work, we propose to estimate the routing scores between tokens and experts on a low-dimensional hypersphere. We conduct extensive experiments on cross-lingual language model pre-training and fine-tuning on downstream tasks. Experimental results across seven multilingual benchmarks show that our method achieves consistent gains. We also present a comprehensive analysis on the representation and routing behaviors of our models. Our method alleviates the representation collapse issue and achieves more consistent routing than the baseline mixture-of-experts methods.
翻訳日:2022-04-21 13:29:20 公開日:2022-04-20
# 誰が行方不明? 韓国全国日報会話コーパスにおける異なる集団の参加の特徴

Who Is Missing? Characterizing the Participation of Different Demographic Groups in a Korean Nationwide Daily Conversation Corpus ( http://arxiv.org/abs/2204.09209v1 )

ライセンス: Link先を確認
Haewoon Kwak and Jisun An and Kunwoo Park(参考訳) 対話型AIアプリケーションを構築するには会話コーパスが不可欠だ。 しかし、これらのコーパスの参加者の人口統計情報は、多くのコーパスに個別のデータが欠如していることから、概ね過小評価されている。 本研究では,国立韓国語研究所(nikl)が構築した韓国全国日報会話コーパスを分析し,そのコーパスにおける異なる年齢層(年齢・性別)集団の参加を特徴付ける。

A conversation corpus is essential to build interactive AI applications. However, the demographic information of the participants in such corpora is largely underexplored mainly due to the lack of individual data in many corpora. In this work, we analyze a Korean nationwide daily conversation corpus constructed by the National Institute of Korean Language (NIKL) to characterize the participation of different demographic (age and sex) groups in the corpus.
翻訳日:2022-04-21 13:29:09 公開日:2022-04-20
# ニューラルマシン翻訳における非自己回帰生成に関する調査研究

A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond ( http://arxiv.org/abs/2204.09269v1 )

ライセンス: Link先を確認
Yisheng Xiao, Lijun Wu, Junliang Guo, Juntao Li, Min Zhang, Tao Qin, Tie-yan Liu(参考訳) 推論を高速化するためにニューラルネットワーク翻訳(NMT)で最初に提案された非自己回帰(NAR)生成は、機械学習と自然言語処理のコミュニティの両方で注目を集めている。 NAR生成は機械翻訳の推論速度を大幅に高速化するが、高速化は自動回帰(AR)生成と比較して翻訳精度を犠牲にするコストがかかる。 近年,NAR生成とAR生成の精度ギャップを埋めるために,多くの新しいモデルやアルゴリズムが設計・提案されている。 本稿では,様々な側面の非自己回帰翻訳(nat)モデルの比較と議論を体系的に実施する。 具体的には,natの取り組みを,データ操作,モデリング手法,トレーニング基準,デコードアルゴリズム,事前学習モデルのメリットなど,いくつかのグループに分類した。 さらに,対話生成,テキスト要約,文法誤り訂正,意味解析,音声合成,音声認識など,機械翻訳以外のNARモデルの応用についても概説する。 さらに,kdの依存性,動的長さ予測,narの事前学習,より広範なアプリケーションなど,今後の探索の方向性についても論じる。 この調査は、研究者が最新のNAR生成の進歩を捉え、先進的なNARモデルとアルゴリズムの設計を刺激し、業界関係者がアプリケーションに適切なソリューションを選択できるようにするのに役立つことを願っている。 このサーベイのWebページは \url{https://github.com/LitterBrother-Xiao/Overview-of-Non-autoregressive-Applications} にある。

Non-autoregressive (NAR) generation, which is first proposed in neural machine translation (NMT) to speed up inference, has attracted much attention in both machine learning and natural language processing communities. While NAR generation can significantly accelerate inference speed for machine translation, the speedup comes at the cost of sacrificed translation accuracy compared to its counterpart, auto-regressive (AR) generation. In recent years, many new models and algorithms have been designed/proposed to bridge the accuracy gap between NAR generation and AR generation. In this paper, we conduct a systematic survey with comparisons and discussions of various non-autoregressive translation (NAT) models from different aspects. Specifically, we categorize the efforts of NAT into several groups, including data manipulation, modeling methods, training criterion, decoding algorithms, and the benefit from pre-trained models. Furthermore, we briefly review other applications of NAR models beyond machine translation, such as dialogue generation, text summarization, grammar error correction, semantic parsing, speech synthesis, and automatic speech recognition. In addition, we also discuss potential directions for future exploration, including releasing the dependency of KD, dynamic length prediction, pre-training for NAR, and wider applications, etc. We hope this survey can help researchers capture the latest progress in NAR generation, inspire the design of advanced NAR models and algorithms, and enable industry practitioners to choose appropriate solutions for their applications. The web page of this survey is at \url{https://github.com/LitterBrother-Xiao/Overview-of-Non-autoregressive-Applications}.
翻訳日:2022-04-21 13:27:52 公開日:2022-04-20
# サイバー物理システムにおけるデータのロバストネステストと知識駆動型異常検出

Robustness Testing of Data and Knowledge Driven Anomaly Detection in Cyber-Physical Systems ( http://arxiv.org/abs/2204.09183v1 )

ライセンス: Link先を確認
Xugui Zhou, Maxfield Kouzel, Homa Alemzadeh(参考訳) サイバー物理システム(cps)の複雑さの増大と安全性と安全性の確保の課題は、正確でスケーラブルな異常検出のためのディープラーニング手法の利用の増加につながった。 しかしながら、機械学習(ML)モデルは、予期せぬデータの予測において低いパフォーマンスに悩まされ、偶然または悪意のある摂動に対して脆弱であることが多い。 ディープラーニングモデルの堅牢性テストは、画像分類や音声認識などのアプリケーションで広く研究されているが、CPSにおけるML駆動型安全監視には注意が払われていない。 本稿では,gaussian-based noise model と fast gradient sign method (fgsm) を用いて生成した2種類の偶発的および悪質な入力摂動に対する安全性クリティカルcpsにおけるmlに基づく異常検出法のロバスト性評価に関する予備結果について述べる。 MLモデルとドメイン知識(例えば、安全でないシステム動作)を統合することによって、精度と透明性を犠牲にすることなく、異常検出の堅牢性を向上させることができるかどうかを検証する。 糖尿病管理のためのAPS(Artificial Pancreas Systems)の2例の実験結果によると、MLベースの安全モニターは、平均54.2%の堅牢性エラーを低減し、平均F1スコアを高く保ちながら透明性を改善している。

The growing complexity of Cyber-Physical Systems (CPS) and challenges in ensuring safety and security have led to the increasing use of deep learning methods for accurate and scalable anomaly detection. However, machine learning (ML) models often suffer from low performance in predicting unexpected data and are vulnerable to accidental or malicious perturbations. Although robustness testing of deep learning models has been extensively explored in applications such as image classification and speech recognition, less attention has been paid to ML-driven safety monitoring in CPS. This paper presents the preliminary results on evaluating the robustness of ML-based anomaly detection methods in safety-critical CPS against two types of accidental and malicious input perturbations, generated using a Gaussian-based noise model and the Fast Gradient Sign Method (FGSM). We test the hypothesis of whether integrating the domain knowledge (e.g., on unsafe system behavior) with the ML models can improve the robustness of anomaly detection without sacrificing accuracy and transparency. Experimental results with two case studies of Artificial Pancreas Systems (APS) for diabetes management show that ML-based safety monitors trained with domain knowledge can reduce on average up to 54.2% of robustness error and keep the average F1 scores high while improving transparency.
翻訳日:2022-04-21 13:26:55 公開日:2022-04-20
# (参考訳) 物理制約下における観測からの会議計画

Assembly Planning from Observations under Physical Constraints ( http://arxiv.org/abs/2204.09616v1 )

ライセンス: CC BY 4.0
Thomas Chabal, Robin Strudel, Etienne Arlaud, Jean Ponce, Cordelia Schmid(参考訳) 本稿では,オブジェクト検出とポーズ推定のためのオフ・ザ・シェルフ手法を用いて,単一の写真から抽出した情報を用いて,未知のプリミティブの集合体を既知の形状と外観でコピーする問題に対処する。 提案アルゴリズムは,物理安定性制約,凸最適化,モンテカルロ木探索の簡単な組み合わせを用いて,STRIPS演算子で表されるピック・アンド・プレース演算の列としてアセンブリを計画する。 それは効率的で、最も重要なのは、実際のロボットシステムでは避けられないオブジェクト検出とポーズ推定のエラーに対して頑健であることだ。 提案手法はUR5マニピュレータの徹底的な実験により実証された。

This paper addresses the problem of copying an unknown assembly of primitives with known shape and appearance using information extracted from a single photograph by an off-the-shelf procedure for object detection and pose estimation. The proposed algorithm uses a simple combination of physical stability constraints, convex optimization and Monte Carlo tree search to plan assemblies as sequences of pick-and-place operations represented by STRIPS operators. It is efficient and, most importantly, robust to the errors in object detection and pose estimation unavoidable in any real robotic system. The proposed approach is demonstrated with thorough experiments on a UR5 manipulator.
翻訳日:2022-04-21 13:24:14 公開日:2022-04-20
# 未来への一般化:フェイクニュース検出におけるエンティティバイアスの緩和

Generalizing to the Future: Mitigating Entity Bias in Fake News Detection ( http://arxiv.org/abs/2204.09484v1 )

ライセンス: Link先を確認
Yongchun Zhu, Qiang Sheng, Juan Cao, Shuokai Li, Danding Wang, Fuzhen Zhuang(参考訳) フェイクニュースの広汎な普及は、個人と社会の両方を脅かしている。 フェイクニュース検出は、過去のニュースでモデルをトレーニングし、未来のフェイクニュースを検出することを目的としている。 しかし、既存の偽ニュース検出手法は、現実のデータにおける意図しない実体バイアスを見落とし、将来のデータに対するモデルの一般化能力に深刻な影響を与えている。 例えば、2010-2017年の「ドナルド・トランプ」を含むニュース記事の97%はわれわれのデータに写っているが、2018年にはわずか33%にまで落ち込んでいる。 これは「ドナルド・トランプ」に関するニュースを、トレーニング損失を減らすために本物であると予測する傾向にあるため、前者のモデルでは後者にはほとんど一般化しない。 本稿では,エンティティバイアスを因果効果の観点から緩和することにより,偽ニュース検出モデルを将来のデータに一般化するエンティティデバイアスフレームワーク(\textbf{ENDEF})を提案する。 実体,ニュースコンテンツ,ニュースの妥当性の因果グラフに基づいて,トレーニング中の各原因(内容,内容)の寄与を別々にモデル化する。 推論の段階では、エンティティの直接的な効果を取り除き、エンティティバイアスを軽減します。 英語と中国語のデータセットに関する広範囲なオフライン実験は、提案されたフレームワークがベースフェイクニュース検出器のパフォーマンスを大幅に改善できることを示し、オンラインテストは実際にその優位性を検証する。 私たちの知る限りでは、これはフェイクニュース検出モデルの将来のデータへの一般化能力を明示的に改善する最初の作業です。 コードはhttps://github.com/ICTMCG/ENDEF-SIGIR2022でリリースされた。

The wide dissemination of fake news is increasingly threatening both individuals and society. Fake news detection aims to train a model on the past news and detect fake news of the future. Though great efforts have been made, existing fake news detection methods overlooked the unintended entity bias in the real-world data, which seriously influences models' generalization ability to future data. For example, 97\% of news pieces in 2010-2017 containing the entity `Donald Trump' are real in our data, but the percentage falls down to merely 33\% in 2018. This would lead the model trained on the former set to hardly generalize to the latter, as it tends to predict news pieces about `Donald Trump' as real for lower training loss. In this paper, we propose an entity debiasing framework (\textbf{ENDEF}) which generalizes fake news detection models to the future data by mitigating entity bias from a cause-effect perspective. Based on the causal graph among entities, news contents, and news veracity, we separately model the contribution of each cause (entities and contents) during training. In the inference stage, we remove the direct effect of the entities to mitigate entity bias. Extensive offline experiments on the English and Chinese datasets demonstrate that the proposed framework can largely improve the performance of base fake news detectors, and online tests verify its superiority in practice. To the best of our knowledge, this is the first work to explicitly improve the generalization ability of fake news detection models to the future data. The code has been released at https://github.com/ICTMCG/ENDEF-SIGIR2022.
翻訳日:2022-04-21 13:11:15 公開日:2022-04-20
# 不確実性に基づく確率表現を用いたクロスモーダル検索

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations ( http://arxiv.org/abs/2204.09268v1 )

ライセンス: Link先を確認
Leila Pishdad, Ran Zhang, Konstantinos G. Derpanis, Allan Jepson, Afsaneh Fazly(参考訳) 確率的埋め込みは、画像マッチングにおける曖昧さと同様に多義語の意味を捉えるのに有用であることが証明されている。 本稿では,確率的埋め込みのアドバンテージをクロスモーダルな設定(テキストと画像)で検討し,既存の画像-テキストマッチングモデルにおける標準ベクトル点埋め込みを,パラメトリックに学習される確率的分布に置き換える簡易な手法を提案する。 我々の指針となる仮説は、確率的埋め込みにエンコードされる不確実性が入力インスタンスのクロスモーダルな曖昧さを捉え、確率的モデルが画像対テキストやテキスト対画像検索のような下流タスクでよりうまく機能できるという不確かさを捉えることによって得られる、ということである。 標準および新しいベンチマークに関する広範な実験を通じて、クロスモーダル検索における確率的表現に対する一貫した優位性を示し、不確実性を捉えるための埋め込みの能力を検証する。

Probabilistic embeddings have proven useful for capturing polysemous word meanings, as well as ambiguity in image matching. In this paper, we study the advantages of probabilistic embeddings in a cross-modal setting (i.e., text and images), and propose a simple approach that replaces the standard vector point embeddings in extant image-text matching models with probabilistic distributions that are parametrically learned. Our guiding hypothesis is that the uncertainty encoded in the probabilistic embeddings captures the cross-modal ambiguity in the input instances, and that it is through capturing this uncertainty that the probabilistic models can perform better at downstream tasks, such as image-to-text or text-to-image retrieval. Through extensive experiments on standard and new benchmarks, we show a consistent advantage for probabilistic representations in cross-modal retrieval, and validate the ability of our embeddings to capture uncertainty.
翻訳日:2022-04-21 13:10:48 公開日:2022-04-20
# (参考訳) ELEVATER: 言語拡張ビジュアルモデルを評価するベンチマークとツールキット

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models ( http://arxiv.org/abs/2204.08790v2 )

ライセンス: CC BY 4.0
Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Yong Jae Lee, Houdong Hu, Zicheng Liu, and Jianfeng Gao(参考訳) 自然言語の監督から視覚的な表現を学ぶことは、最近、多くの先駆的な研究で大きな約束を示している。 一般的に、これらの言語によるビジュアルモデルは、さまざまなデータセット/タスクへの強い転送性を示しています。 しかし、公平なベンチマークのための簡単に使えるツールキットがないため、これらの基礎モデルのトランスファー性を評価することは依然として課題である。 これを解決するために、私たちは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークであるELEVATER(Evaluation of Language-augmented Visual Task-level Transfer)を構築した。 いくつかのハイライトは以下のとおりである。 (i)データセット。 下流評価スイートとして、20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。 (ii)ツールキット。 モデル適応の公平性を確保するために,自動ハイパーパラメータチューニングツールキットを開発した。 言語拡張ビジュアルモデルのフルパワーを活用するために,適応性能を大幅に向上させる新しい言語対応初期化手法を提案する。 (iii)指標。 サンプル効率(ゼロショットと少数ショット)やパラメータ効率(線形プローブとフルモデル微調整)など、さまざまな評価指標が使用されている。 研究コミュニティのためのツールキットと評価プラットフォームをリリースします。

Learning visual representations from natural language supervision has recently shown great promise in a number of pioneering works. In general, these language-augmented visual models demonstrate strong transferability to a variety of datasets/tasks. However, it remains a challenge to evaluate the transferablity of these foundation models due to the lack of easy-to-use toolkits for fair benchmarking. To tackle this, we build ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer), the first benchmark to compare and evaluate pre-trained language-augmented visual models. Several highlights include: (i) Datasets. As downstream evaluation suites, it consists of 20 image classification datasets and 35 object detection datasets, each of which is augmented with external knowledge. (ii) Toolkit. An automatic hyper-parameter tuning toolkit is developed to ensure the fairness in model adaption. To leverage the full power of language-augmented visual models, novel language-aware initialization methods are proposed to significantly improve the adaption performance. (iii) Metrics. A variety of evaluation metrics are used, including sample-efficiency (zero-shot and few-shot) and parameter-efficiency (linear probing and full model fine-tuning). We will release our toolkit and evaluation platforms for the research community.
翻訳日:2022-04-21 13:07:40 公開日:2022-04-20
# (参考訳) ラジオギャラクシー動物園: 半教師付き学習を用いて、大きな未ラベルデータセットをデータ-セットシフト下での電波銀河分類に活用する

Radio Galaxy Zoo: Using semi-supervised learning to leverage large unlabelled data-sets for radio galaxy classification under data-set shift ( http://arxiv.org/abs/2204.08816v2 )

ライセンス: CC BY 4.0
Inigo V. Slijepcevic, Anna M. M. Scaife, Mike Walmsley, Micah Bowles, Ivy Wong, Stanislav S. Shabala and Hongming Tang(参考訳) 本研究では,電波銀河の形態的分類に適用した最先端半教師付き学習(SSL)アルゴリズムの分類精度とロバスト性について検討する。 より少ないラベルを持つSSLが、監督された最先端技術に匹敵するテスト精度を達成できるかどうかをテストします。 検討した電波銀河分類問題に対して、SSLはさらなる正規化を提供し、ベースライン検定精度を上回ります。 しかし,コンピュータサイエンスのベンチマークデータに報告されているモデル性能指標とは対照的に,改善はラベルボリュームの限られた範囲に限られており,低ラベルボリュームでは性能が急速に低下している。 さらに,分類の改善にかかわらず,SSLはモデル校正を改善しないことを示す。 さらに,同じラジオ調査から抽出した下位のカタログを用いてSSLに必要なラベル付きおよび非ラベル付きデータセットを提供すると,分類性能の大幅な低下が観測され,データセットシフトによるSSL技術の適用の難しさが浮き彫りになる。 We show that a class-imbalanced unlabelled data pool negatively affects performance through prior probability shift, which we suggest may explain this performance drop, and that using the Frechet Distance between labelled and unlabelled data-sets as a measure of data-set shift can provide a prediction of model performance, but that for typical radio galaxy data-sets with labelled sample volumes of O(1000), the sample variance associated with this technique is high and the technique is in general not sufficiently robust to replace a train-test cycle.

In this work we examine the classification accuracy and robustness of a state-of-the-art semi-supervised learning (SSL) algorithm applied to the morphological classification of radio galaxies. We test if SSL with fewer labels can achieve test accuracies comparable to the supervised state-of-the-art and whether this holds when incorporating previously unseen data. We find that for the radio galaxy classification problem considered, SSL provides additional regularisation and outperforms the baseline test accuracy. However, in contrast to model performance metrics reported on computer science benchmarking data-sets, we find that improvement is limited to a narrow range of label volumes, with performance falling off rapidly at low label volumes. Additionally, we show that SSL does not improve model calibration, regardless of whether classification is improved. Moreover, we find that when different underlying catalogues drawn from the same radio survey are used to provide the labelled and unlabelled data-sets required for SSL, a significant drop in classification performance is observered, highlighting the difficulty of applying SSL techniques under dataset shift. We show that a class-imbalanced unlabelled data pool negatively affects performance through prior probability shift, which we suggest may explain this performance drop, and that using the Frechet Distance between labelled and unlabelled data-sets as a measure of data-set shift can provide a prediction of model performance, but that for typical radio galaxy data-sets with labelled sample volumes of O(1000), the sample variance associated with this technique is high and the technique is in general not sufficiently robust to replace a train-test cycle.
翻訳日:2022-04-21 12:43:48 公開日:2022-04-20
# atp: amrize では parse! PseudoAMRによるAMR解析の強化

ATP: AMRize Then Parse! Enhancing AMR Parsing with PseudoAMRs ( http://arxiv.org/abs/2204.08875v2 )

ライセンス: Link先を確認
Liang Chen, Peiyi Wang, Runxin Xu, Tianyu Liu, Zhifang Sui, Baobao Chang(参考訳) 抽象的意味表現(AMR)は、複合意味アノテーションを暗黙的に含んでいるため、意味的あるいは形式的に関連する補助的タスクは、AMR解析をより強化する可能性がある。 私たちはそれを見つけ 1)Semantic Role labeling (SRL) とDependency parsing (DP) は、MTなどの他のタスクよりもパフォーマンスが向上し、データが少なくてもテキストからAMRへの移行が要約される。 2) amrの適合性を高めるためには,補助課題からのデータを訓練前に疑似学習者に対して適切に「増幅」する必要がある。 浅層解析タスクからの知識は、構造変換を伴うAMRパーシングに転送される。 3)中間タスク学習は,マルチタスク学習と比較して,補助タスクをAMR解析に導入する上で優れたパラダイムである。 実証的な観点から,AMR解析を促進するための補助的タスクを含む原理的手法を提案する。 本手法は,特にトポロジ関連スコアにおいて,異なるベンチマーク上での新たな最先端性能を実現することを示す。

As Abstract Meaning Representation (AMR) implicitly involves compound semantic annotations, we hypothesize auxiliary tasks which are semantically or formally related can better enhance AMR parsing. We find that 1) Semantic role labeling (SRL) and dependency parsing (DP), would bring more performance gain than other tasks e.g. MT and summarization in the text-to-AMR transition even with much less data. 2) To make a better fit for AMR, data from auxiliary tasks should be properly "AMRized" to PseudoAMR before training. Knowledge from shallow level parsing tasks can be better transferred to AMR Parsing with structure transform. 3) Intermediate-task learning is a better paradigm to introduce auxiliary tasks to AMR parsing, compared to multitask learning. From an empirical perspective, we propose a principled method to involve auxiliary tasks to boost AMR parsing. Extensive experiments show that our method achieves new state-of-the-art performance on different benchmarks especially in topology-related scores.
翻訳日:2022-04-21 11:46:21 公開日:2022-04-20
# (参考訳) 多レベル整合と部分置換を伴う半教師付き3次元形状分割

Semi-supervised 3D shape segmentation with multilevel consistency and part substitution ( http://arxiv.org/abs/2204.08824v2 )

ライセンス: CC BY 4.0
Chun-Yu Sun, Yu-Qi Yang, Hao-Xiang Guo, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum(参考訳) きめ細かい3次元形状のセグメンテーションデータが欠如していることが,学習に基づく3次元セグメンテーション技術開発の主な障害となっている。 本稿では,ラベル付3次元形状とラベル付3次元データから3次元分割を効果的に学習する手法を提案する。 ラベルのないデータに対しては,複数レベル(点レベル,部分レベル,階層レベル)で3次元形状の摂動コピー間のネットワーク予測の整合性を強制する,新たな多レベル整合性損失を示す。 ラベル付きデータに対して,より構造的な変化を伴ってラベル付き3次元形状を増強し,トレーニングを強化するシンプルな部分置換法を開発した。 本手法は,partnetとshapenetpartの3次元オブジェクト意味セグメンテーションと,scannetの屋内シーン意味セグメンテーションのタスクで広く検証されている。 既存の半教師なしかつ教師なしの3dアプローチよりも優れた性能を示す。 私たちのコードとトレーニングされたモデルは、https://github.com/isunchy/semi_supervised_3d_segmentationで公開されている。

The lack of fine-grained 3D shape segmentation data is the main obstacle to developing learning-based 3D segmentation techniques. We propose an effective semi-supervised method for learning 3D segmentations from a few labeled 3D shapes and a large amount of unlabeled 3D data. For the unlabeled data, we present a novel multilevel consistency loss to enforce consistency of network predictions between perturbed copies of a 3D shape at multiple levels: point-level, part-level, and hierarchical level. For the labeled data, we develop a simple yet effective part substitution scheme to augment the labeled 3D shapes with more structural variations to enhance training. Our method has been extensively validated on the task of 3D object semantic segmentation on PartNet and ShapeNetPart, and indoor scene semantic segmentation on ScanNet. It exhibits superior performance to existing semi-supervised and unsupervised pre-training 3D approaches. Our code and trained models are publicly available at https://github.com/isunchy/semi_supervised_3d_segmentation.
翻訳日:2022-04-21 11:44:57 公開日:2022-04-20
# 階層型フルアテンションネットワークを用いたポーズノイズ2次元画像からの3次元意味学習

Learning 3D Semantics from Pose-Noisy 2D Images with Hierarchical Full Attention Network ( http://arxiv.org/abs/2204.08084v2 )

ライセンス: Link先を確認
Yuhang He, Lin Chen, Junkun Xie, Long Chen(参考訳) ポーズエラーを含む2次元多視点画像観測から3次元ポイントクラウドの意味を学習するための新しいフレームワークを提案する。 一方で、巨大で構造化されていない3dポイントクラウドからの直接学習は、コンパクトでコンテキストに富んだ2d rgbイメージからの学習よりも計算的に、アルゴリズム的に困難である。 一方、LiDARポイントクラウドとRGBイメージはどちらも、標準的な自動化データセットでキャプチャされる。 これにより、3次元のセマンティックセグメンテーションが2次元のセマンティックキューの集約による恩恵を享受できる「タスク転送」パラダイムが実現されるが、ポーズノイズは2次元の画像観察に含まれる。 難易度の中では,2次元セマンティックセグメンテーションによるノイズと誤予測がタスク転送の主な課題である。 これらの要因の影響を緩和するために、マルチビュー画像を用いて各3dポイントを知覚し、パッチ観察を関連付ける。 さらに、隣接する3Dポイントのブロックのセマンティックラベルを同時に予測し、さらに性能を向上させるためにポイント構造を利用することができる。 階層型フルアテンションネットワーク(hifanet)は、パッチ、バッグオブフレーム、ポイント間セマンティクスキューを順次集約し、異なるレベルのセマンティクスキュー用に階層的アテンション機構を備えるように設計されている。 また、先行するアテンションブロックは、次のアテンションブロックにフィードする前に、機能サイズを大幅に削減します。 Semantic-KITTIの実験結果によると、提案フレームワークは既存の3Dポイントクラウドベースの手法よりも優れており、トレーニングデータが少なく、ノイズを訴える耐性を示す。 コードはhttps://github.com/yuhanghe01/hifanetで入手できる。

We propose a novel framework to learn 3D point cloud semantics from 2D multi-view image observations containing pose error. On the one hand, directly learning from the massive, unstructured and unordered 3D point cloud is computationally and algorithmically more difficult than learning from compactly-organized and context-rich 2D RGB images. On the other hand, both LiDAR point cloud and RGB images are captured in standard automated-driving datasets. This motivates us to conduct a "task transfer" paradigm so that 3D semantic segmentation benefits from aggregating 2D semantic cues, albeit pose noises are contained in 2D image observations. Among all difficulties, pose noise and erroneous prediction from 2D semantic segmentation approaches are the main challenges for the task transfer. To alleviate the influence of those factor, we perceive each 3D point using multi-view images and for each single image a patch observation is associated. Moreover, the semantic labels of a block of neighboring 3D points are predicted simultaneously, enabling us to exploit the point structure prior to further improve the performance. A hierarchical full attention network~(HiFANet) is designed to sequentially aggregates patch, bag-of-frames and inter-point semantic cues, with hierarchical attention mechanism tailored for different level of semantic cues. Also, each preceding attention block largely reduces the feature size before feeding to the next attention block, making our framework slim. Experiment results on Semantic-KITTI show that the proposed framework outperforms existing 3D point cloud based methods significantly, it requires much less training data and exhibits tolerance to pose noise. The code is available at https://github.com/yuhanghe01/HiFANet.
翻訳日:2022-04-21 11:17:22 公開日:2022-04-20
# すべてのトークンが同じではない:Token Clustering Transformerによる人間中心のビジュアル分析

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer ( http://arxiv.org/abs/2204.08680v2 )

ライセンス: Link先を確認
Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, and Xiaogang Wang(参考訳) ビジョントランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。 ほとんどの方法は、画像を正規および固定されたグリッドに分割し、各セルをトークンとして扱うことで視覚トークンを生成する。 しかし、全ての領域が人間中心の視覚タスクにおいて等しく重要であるわけではない。例えば、人間の体は多くのトークンを持つ微妙な表現を必要とするが、画像背景はいくつかのトークンでモデル化できる。 そこで本研究では,トークンをフレキシブルな形状と大きさの異なる場所からマージ可能な,プログレッシブクラスタリングによってトークンをマージする,Token Clustering Transformer (TCFormer) という新しいビジョントランスフォーマーを提案する。 tcformerのトークンは重要な領域に焦点を合わせるだけでなく、意味概念に合うようにトークン形状を調整したり、重要な詳細情報を含む領域に対して詳細な解決を行うことができる。 大規模な実験によると、TCFormerは、COCO-WholeBodyの全身ポーズ推定や3DPWの3Dヒューマンメッシュ再構築など、さまざまな挑戦的な人間中心のタスクやデータセットにおいて、一貫してその成果を上げている。 コードはhttps://github.com/ zengwang430521/TCFormer.gitで入手できる。

Vision transformers have achieved great successes in many computer vision tasks. Most methods generate vision tokens by splitting an image into a regular and fixed grid and treating each cell as a token. However, not all regions are equally important in human-centric vision tasks, e.g., the human body needs a fine representation with many tokens, while the image background can be modeled by a few tokens. To address this problem, we propose a novel Vision Transformer, called Token Clustering Transformer (TCFormer), which merges tokens by progressive clustering, where the tokens can be merged from different locations with flexible shapes and sizes. The tokens in TCFormer can not only focus on important areas but also adjust the token shapes to fit the semantic concept and adopt a fine resolution for regions containing critical details, which is beneficial to capturing detailed information. Extensive experiments show that TCFormer consistently outperforms its counterparts on different challenging human-centric tasks and datasets, including whole-body pose estimation on COCO-WholeBody and 3D human mesh reconstruction on 3DPW. Code is available at https://github.com/ zengwang430521/TCFormer.git.
翻訳日:2022-04-21 11:16:48 公開日:2022-04-20
# 新しい拡張技術によるコアボックス画像認識とその改善

Core Box Image Recognition and its Improvement with a New Augmentation Technique ( http://arxiv.org/abs/2204.08853v2 )

ライセンス: Link先を確認
E.E. Baraboshkin, A.E. Demidov, D.M. Orlov, D.A. Koroteev(参考訳) 自動フルボア岩盤コア画像解析(記述、色、プロパティ分布など)のほとんどの方法は、分離されたコアカラム分析に基づいている。 コアは通常、各コアカラムのイメージを取得するのにかなりの時間を要するため、ボックス内でイメージされます。 この研究はコアボックスからコア列を抽出するための革新的な方法とアルゴリズムを示す。 コアボックスイメージングの条件は、大きく異なる可能性がある。 このような違いは、可能なすべてのデータバリエーションを記述する大きなデータセットを必要とする機械学習アルゴリズムにとっては悲惨だ。 それでもそのようなイメージには、ボックスとコアという、いくつかの標準的な機能があります。 したがって,本研究では,異なる環境のエミュレートを行うことができる。 テンプレートライクな拡張(TLA)と呼ばれる。 この手法は様々な環境で記述・テストされ、従来のデータと伝統的なデータとtlaデータの両方で訓練されたアルゴリズムで比較される。 TLAデータでトレーニングされたアルゴリズムは、TLAなしでトレーニングされたデータとは異なり、より良いメトリクスを提供し、ほとんどの新しいイメージのコアを検出することができる。 自動化コア記述システムで実装されたコアカラム抽出アルゴリズムは、コアボックス処理を20倍高速化する。

Most methods for automated full-bore rock core image analysis (description, colour, properties distribution, etc.) are based on separate core column analyses. The core is usually imaged in a box because of the significant amount of time taken to get an image for each core column. The work presents an innovative method and algorithm for core columns extraction from core boxes. The conditions for core boxes imaging may differ tremendously. Such differences are disastrous for machine learning algorithms which need a large dataset describing all possible data variations. Still, such images have some standard features - a box and core. Thus, we can emulate different environments with a unique augmentation described in this work. It is called template-like augmentation (TLA). The method is described and tested on various environments, and results are compared on an algorithm trained on both 'traditional' data and a mix of traditional and TLA data. The algorithm trained with TLA data provides better metrics and can detect core on most new images, unlike the algorithm trained on data without TLA. The algorithm for core column extraction implemented in an automated core description system speeds up the core box processing by a factor of 20.
翻訳日:2022-04-21 11:16:27 公開日:2022-04-20
# ユーザシミュレーションによる混合対話型検索システムの評価

Evaluating Mixed-initiative Conversational Search Systems via User Simulation ( http://arxiv.org/abs/2204.08046v2 )

ライセンス: Link先を確認
Ivan Sekuli\'c, Mohammad Aliannejadi, Fabio Crestani(参考訳) 現代会話検索システムにおいて,質問の明確化によるユーザ情報ニーズの明確化が重要な特徴である。 しかし,質問への回答によるシステム評価には,人的努力が不可欠であり,時間と費用がかかる可能性がある。 本稿では,このような対話型検索システムの自動評価のために,usiと呼ばれる対話型ユーザシミュレータを提案する。 情報の必要性が説明されると、USiは検索セッションを通してトピックに関する明確な質問に自動的に答えることができる。 自動自然言語生成メトリクスやクラウドソーシング研究を含む一連の実験を通して、USiが生成した応答は、基礎となる情報要求と同等であり、人間による回答に匹敵するものであることを示す。 さらに,対話型検索システムがユーザニーズの明確化を目標として(シミュレーション)ユーザに対して複数の質問を行うマルチターンインタラクションへの第一歩を踏み出した。 この目的のために,クラウドソーシングに基づくマルチターンデータ取得を行うことで,クラックやクラリクといった明確化問題を研究するために,現在利用可能なデータセットを拡張する。 生成型 GPT2 ベースのモデルでは,単一ターン設定における不明瞭な質問に対して,正確かつ自然な回答が得られ,マルチターン設定におけるモデルの能力について議論できることを示す。 我々は、このトピックに関するさらなる研究に使用する、コード、データ、および事前訓練されたモデルを提供します。

Clarifying the underlying user information need by asking clarifying questions is an important feature of modern conversational search system. However, evaluation of such systems through answering prompted clarifying questions requires significant human effort, which can be time-consuming and expensive. In this paper, we propose a conversational User Simulator, called USi, for automatic evaluation of such conversational search systems. Given a description of an information need, USi is capable of automatically answering clarifying questions about the topic throughout the search session. Through a set of experiments, including automated natural language generation metrics and crowdsourcing studies, we show that responses generated by USi are both inline with the underlying information need and comparable to human-generated answers. Moreover, we make the first steps towards multi-turn interactions, where conversational search systems asks multiple questions to the (simulated) user with a goal of clarifying the user need. To this end, we expand on currently available datasets for studying clarifying questions, i.e., Qulac and ClariQ, by performing a crowdsourcing-based multi-turn data acquisition. We show that our generative, GPT2-based model, is capable of providing accurate and natural answers to unseen clarifying questions in the single-turn setting and discuss capabilities of our model in the multi-turn setting. We provide the code, data, and the pre-trained model to be used for further research on the topic.
翻訳日:2022-04-21 11:16:13 公開日:2022-04-20
# 高速R-CNNを用いた超音波脊椎画像の自動曲率計測

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN ( http://arxiv.org/abs/2204.07988v2 )

ライセンス: Link先を確認
Zhichao Liu, Liyue Qian, Wenke Jing, Desen Zhou, Xuming He, Edmond Lou, Rui Zheng(参考訳) 超音波脊椎画像法は脊椎変形の評価に応用されている。 しかし、超音波画像の側方角の手動測定は時間がかかり、ラッカーの経験に大きく依存している。 本研究の目的は, 脊椎ラミナ検出のための高速R-CNNに基づく完全自動フレームワークの構築と, 検出したラミナ対からの脊椎の適合曲線の測定である。 フレームワークは2つの密結合モジュールで構成されていた。 1)超音波コロナ画像上の各ラミナ対を同定・同定するラミナ検出器、及び 2)検出されたラミナの連鎖に基づいてスコリオティックアングルを計算するための脊髄曲率推定器。 ais患者から得られた200個の超音波画像が同定され,提案手法の訓練および評価に用いられた。 実験の結果, テストセット上の0.76 ap, 臨床受入誤差の範囲内における自動測定と手動測定との絶対差(mad)がみられた。 一方,x線写真からの自動測定とコブ角の相関は0.79。 提案手法は, 脊椎変形に対する超音波画像の高精度で信頼性の高い自動曲率測定が可能であった。

Ultrasound spine imaging technique has been applied to the assessment of spine deformity. However, manual measurements of scoliotic angles on ultrasound images are time-consuming and heavily rely on raters experience. The objectives of this study are to construct a fully automatic framework based on Faster R-CNN for detecting vertebral lamina and to measure the fitting spinal curves from the detected lamina pairs. The framework consisted of two closely linked modules: 1) the lamina detector for identifying and locating each lamina pairs on ultrasound coronal images, and 2) the spinal curvature estimator for calculating the scoliotic angles based on the chain of detected lamina. Two hundred ultrasound images obtained from AIS patients were identified and used for the training and evaluation of the proposed method. The experimental results showed the 0.76 AP on the test set, and the Mean Absolute Difference (MAD) between automatic and manual measurement which was within the clinical acceptance error. Meanwhile the correlation between automatic measurement and Cobb angle from radiographs was 0.79. The results revealed that our proposed technique could provide accurate and reliable automatic curvature measurements on ultrasound spine images for spine deformities.
翻訳日:2022-04-21 11:15:50 公開日:2022-04-20
# 安全四足ナビゲーションのための学習フォワードダイナミクスモデルとインフォームド・トラック・サンプラー

Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe Quadruped Navigation ( http://arxiv.org/abs/2204.08647v2 )

ライセンス: Link先を確認
Yunho Kim, Chanyoung Kim, Jemin Hwangbo(参考訳) 様々な複雑な環境での自律的な四脚ロボットナビゲーションでは、典型的なSOTAシステムは、階層的な方法で4つの主要なモジュール(マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラ)で構成されている。 本稿では,グローバルプランナから粗い計画経路を追跡するための速度計画を生成するために,ロバストで安全なローカルプランナを構築する。 従来の作業ではウェイポイントベースの手法(例えば、Proportional-Differential Controlや純粋な追跡)を使用していた。 しかし,グローバルプランナーは粗い不正確なモデルを使い,ローカルプランナーはグローバルプランを十分に追跡できないという2つの理由から,幾何学的に複雑で狭い環境で頻繁に衝突する。 現在、ディープラーニング手法は、より正確な経験から安全性とパス実現可能性を学ぶことができるため、魅力的な代替手段である。 しかし、既存のディープラーニング手法では、長い地平線を計画することはできない。 本研究では,FDM(Learning forward dynamics model),オンラインサンプリングベースモデル予測コントローラ,ITS(Information trajectory sampler)の3つの革新的な要素からなる学習ベースの完全自律ナビゲーションフレームワークを提案する。 このフレームワークを使うことで、四足歩行ロボットは衝突することなく様々な複雑な環境で自律的に移動でき、ベースライン方式よりもスムーズなコマンドプランを生成することができる。 さらに,提案手法は計画経路上の予期せぬ障害を積極的に処理し,回避することができる。 プロジェクトページ https://awesomericky.github.io/projects/fdm_its_navigation/

For autonomous quadruped robot navigation in various complex environments, a typical SOTA system is composed of four main modules -- mapper, global planner, local planner, and command-tracking controller -- in a hierarchical manner. In this paper, we build a robust and safe local planner which is designed to generate a velocity plan to track a coarsely planned path from the global planner. Previous works used waypoint-based methods (e.g. Proportional-Differential control and pure pursuit) which simplify the path tracking problem to local point-goal navigation. However, they suffer from frequent collisions in geometrically complex and narrow environments because of two reasons; the global planner uses a coarse and inaccurate model and the local planner is unable to track the global plan sufficiently well. Currently, deep learning methods are an appealing alternative because they can learn safety and path feasibility from experience more accurately. However, existing deep learning methods are not capable of planning for a long horizon. In this work, we propose a learning-based fully autonomous navigation framework composed of three innovative elements: a learned forward dynamics model (FDM), an online sampling-based model-predictive controller, and an informed trajectory sampler (ITS). Using our framework, a quadruped robot can autonomously navigate in various complex environments without a collision and generate a smoother command plan compared to the baseline method. Furthermore, our method can reactively handle unexpected obstacles on the planned path and avoid them. Project page https://awesomericky.github.io/projects/FDM_ITS_navigation/.
翻訳日:2022-04-21 11:15:31 公開日:2022-04-20