このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210921となっている論文です。

PDF登録状況(公開日: 20210921)

TitleAuthorsAbstract論文公表日・翻訳日
# 能動推論, ベイズ最適設計, 期待される実用性

Active inference, Bayesian optimal design, and expected utility ( http://arxiv.org/abs/2110.04074v1 )

ライセンス: Link先を確認
Noor Sajid, Lancelot Da Costa, Thomas Parr, Karl Friston(参考訳) 能動推論(active inference)は自由エネルギー原理(free energy principle)の典拠であり、感覚の外観を持つある種のランダム力学系の振る舞いを記述する形式的な方法である。 この章では、期待される自由エネルギーを最小化するために、ベイズ決定理論と最適なベイズ設計原則をいかに組み合わせるかを説明する。 情報探索行動の自然発生を可能にする能動推論のこの側面である。 期待される自由エネルギーから事前の結果の選好を取り除くと、アクティブ推論は最適なベイズ設計、すなわち情報ゲイン最大化へと還元される。 逆に、アクティブ推論は曖昧さと相対リスク、すなわち期待効用最大化の欠如によりベイズ決定理論に還元される。 これらの制限ケースを用いて、エージェントが期待効用、期待情報ゲイン、期待自由エネルギーを最適化するアクションを選択するとき、振る舞いがどう異なるかを示す。 提案するt-mazeシミュレーションでは,期待自由エネルギーの最適化によって目標指向の情報探索行動がもたらされる一方で,期待効用の最適化は純粋に搾取的行動を引き起こし,情報利得を最大化する。

Active inference, a corollary of the free energy principle, is a formal way of describing the behavior of certain kinds of random dynamical systems that have the appearance of sentience. In this chapter, we describe how active inference combines Bayesian decision theory and optimal Bayesian design principles under a single imperative to minimize expected free energy. It is this aspect of active inference that allows for the natural emergence of information-seeking behavior. When removing prior outcomes preferences from expected free energy, active inference reduces to optimal Bayesian design, i.e., information gain maximization. Conversely, active inference reduces to Bayesian decision theory in the absence of ambiguity and relative risk, i.e., expected utility maximization. Using these limiting cases, we illustrate how behaviors differ when agents select actions that optimize expected utility, expected information gain, and expected free energy. Our T-maze simulations show optimizing expected free energy produces goal-directed information-seeking behavior while optimizing expected utility induces purely exploitive behavior and maximizing information gain engenders intrinsically motivated behavior.
翻訳日:2021-10-17 05:08:36 公開日:2021-09-21
# (参考訳) リーマン幾何学を用いた誤差関連ポテンシャルの分類に向けて [全文訳有]

Towards the Classification of Error-Related Potentials using Riemannian Geometry ( http://arxiv.org/abs/2109.13085v1 )

ライセンス: CC BY 4.0
Yichen Tang, Jerry J. Zhang, Paul M. Corballis and Luke E. Hallum(参考訳) エラー関連電位(英: error-related potential、errp)は、タスク実行中のエラーに対する実験参加者の認識によって誘発される事象関連電位(erp)である。 認知心理学者によって記述されたErrPは、エラーの検出と修正、およびデコードアルゴリズムのオンライン改善のために脳-コンピュータインターフェース(BCI)に採用されている。 リーマン幾何学に基づく特徴抽出と分類は、様々な実験パラダイムにおいて優れた性能を示すBCIの新しいアプローチであるが、ErrPの分類には適用されていない。 本稿では,視覚的識別タスクを行う7人の健常者を対象にErrPを誘発する実験を行った。 音声フィードバックは各トライアルで提供された。 マルチチャネル脳波(eeg)記録を用いてerrp(success/failure )を分類し,リーマン幾何学に基づく手法と,時間的特徴を計算する従来の手法を比較した。 全体としてリーマンのアプローチは従来のアプローチ(78.2%対75.9%、p < 0.05)を上回り、この差は7人のうち3人のうち統計的に有意(p < 0.05)であった。 これらの結果は、リーマン的手法がフィードバックによって導かれたErrPから特徴をよりよく捉え、誤り検出と修正にBCIに応用できることを示している。

The error-related potential (ErrP) is an event-related potential (ERP) evoked by an experimental participant's recognition of an error during task performance. ErrPs, originally described by cognitive psychologists, have been adopted for use in brain-computer interfaces (BCIs) for the detection and correction of errors, and the online refinement of decoding algorithms. Riemannian geometry-based feature extraction and classification is a new approach to BCI which shows good performance in a range of experimental paradigms, but has yet to be applied to the classification of ErrPs. Here, we describe an experiment that elicited ErrPs in seven normal participants performing a visual discrimination task. Audio feedback was provided on each trial. We used multi-channel electroencephalogram (EEG) recordings to classify ErrPs (success/failure), comparing a Riemannian geometry-based method to a traditional approach that computes time-point features. Overall, the Riemannian approach outperformed the traditional approach (78.2% versus 75.9% accuracy, p < 0.05); this difference was statistically significant (p < 0.05) in three of seven participants. These results indicate that the Riemannian approach better captured the features from feedback-elicited ErrPs, and may have application in BCI for error detection and correction.
翻訳日:2021-10-10 16:11:03 公開日:2021-09-21
# (参考訳) 部分観測型力学系に対するリカレントニューラルネットワーク [全文訳有]

Recurrent Neural Networks for Partially Observed Dynamical Systems ( http://arxiv.org/abs/2109.11629v1 )

ライセンス: CC BY 4.0
Uttam Bhat and Stephan B. Munch(参考訳) 複素非線形力学は多くの分野においてユビキタスである。 さらに、ダイナミクスを管理する関連するすべての状態変数にアクセスすることは滅多にありません。 遅延埋め込みは、原則として、観測されていない状態変数を考慮できる。 ここでは誤差の明示的な近似を可能にする遅延埋め込みに対する代数的アプローチを提案する。 また,システムサイズに対する一階近似誤差の漸近的依存性も提供する。 さらに、この遅延埋め込みの定式化は、リカレントニューラルネットワーク(RNN)を使って直接実装することができる。 この観察は遅延埋め込みとRNNの両方の解釈可能性を拡張し、これらのアプローチに構造やその他の制約を原則的に組み込むことを促進する。

Complex nonlinear dynamics are ubiquitous in many fields. Moreover, we rarely have access to all of the relevant state variables governing the dynamics. Delay embedding allows us, in principle, to account for unobserved state variables. Here we provide an algebraic approach to delay embedding that permits explicit approximation of error. We also provide the asymptotic dependence of the first order approximation error on the system size. More importantly, this formulation of delay embedding can be directly implemented using a Recurrent Neural Network (RNN). This observation expands the interpretability of both delay embedding and RNN and facilitates principled incorporation of structure and other constraints into these approaches.
翻訳日:2021-10-10 15:39:46 公開日:2021-09-21
# 結果を自己確認に導入する

Introduce the Result Into Self-Attention ( http://arxiv.org/abs/2109.13860v1 )

ライセンス: Link先を確認
Chengcheng Ye(参考訳) 畳み込みネットワークにおける従来の自己着脱機構は、senet、cbamなどの注意ネットワークへの入力として、前層の出力のみを使用する傾向がある。 本稿では,事前に分類ネットワークの出力を取得し,注意ネットワークの入力の一部として利用する新しい注意修正手法を提案する。 我々はgooglenetで提案されている補助分類器を用いて事前に結果を取得してアテンションネットワークに渡す。 実験のためにSE-ResNetにこのメカニズムを追加し、cifar100で少なくとも1.94%の分類精度の向上を実現した。

Traditional self-attention mechanisms in convolutional networks tend to use only the output of the previous layer as input to the attention network, such as SENet, CBAM, etc. In this paper, we propose a new attention modification method that tries to get the output of the classification network in advance and use it as a part of the input of the attention network. We used the auxiliary classifier proposed in GoogLeNet to obtain the results in advance and pass them into attention networks. we added this mechanism to SE-ResNet for our experiments and achieved a classification accuracy improvement of at most 1.94% on cifar100.
翻訳日:2021-10-10 11:45:42 公開日:2021-09-21
# グループ推薦のためのインタラクションパターン付きグラフニューラルネット

Graph Neural Netwrok with Interaction Pattern for Group Recommendation ( http://arxiv.org/abs/2109.11345v1 )

ライセンス: Link先を確認
Bojie Wang, Yuheng Lu(参考訳) 社会プラットフォームの発展に伴い、人々はいくつかの活動に参加するためにグループに結合する傾向が強くなり、研究に値するグループ推薦が徐々に問題になっている。 グループレコメンデーションにとって重要な問題は、個人のインタラクション履歴を通じてグループとアイテムの特徴表現をどうやって取得し、そのアイテムに対するグループの好みを得るかである。 そこで我々はGIP4GR(Graph Neural Network with Interaction Pattern For Group Recommendation)モデルを提案する。 具体的には,グラフのトポロジ的構造におけるグループ-ユーザ-テム間の相互作用を表現するために,強力な表現能力を備えたグラフニューラルネットワークフレームワークを用いて,グラフの相互作用パターンを分析して,グラフニューラルネットワークの特徴出力,グループの特徴表現,およびアイテムを抽出し,そのグループの項目の好みを算出する。 2つの実世界のデータセットで多くの実験を行い、モデルの優れた性能を示しました。

With the development of social platforms, people are more and more inclined to combine into groups to participate in some activities, so group recommendation has gradually become a problem worthy of research. For group recommendation, an important issue is how to obtain the characteristic representation of the group and the item through personal interaction history, and obtain the group's preference for the item. For this problem, we proposed the model GIP4GR (Graph Neural Network with Interaction Pattern For Group Recommendation). Specifically, our model use the graph neural network framework with powerful representation capabilities to represent the interaction between group-user-items in the topological structure of the graph, and at the same time, analyze the interaction pattern of the graph to adjust the feature output of the graph neural network, the feature representations of groups, and items are obtained to calculate the group's preference for items. We conducted a lot of experiments on two real-world datasets to illustrate the superior performance of our model.
翻訳日:2021-09-24 15:11:57 公開日:2021-09-21
# 混合監督セグメンテーション:信頼度最大化は知識蒸留に役立つ

Mixed-supervised segmentation: Confidence maximization helps knowledge distillation ( http://arxiv.org/abs/2109.10902v1 )

ライセンス: Link先を確認
Bingyuan Liu, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz(参考訳) 医療画像セグメンテーションタスクにおいて有望な結果を達成するにもかかわらず、ディープニューラルネットワークはピクセル単位のアノテーションを備えた大規模なトレーニングデータセットを必要とする。 これらのキュレートされたデータセットを取得することは、アノテーション付きイメージが不足しているシナリオでのアプリケーションを制限する、面倒なプロセスである。 混合監視は、この障害を緩和するための魅力的な代替手段であり、データのごく一部に完全なピクセル単位のアノテーションが含まれており、他の画像はより弱い監督形態を持つ。 本研究では,上枝(教師)が強いアノテーションを受け取り,下枝(学生)が限られた監督によって駆動され,上枝が指導する二重ブランチアーキテクチャを提案する。 ラベル付き画素に対する標準クロスエントロピー損失と組み合わせることで, 2つの重要な用語を統合する。 (i)低教師画像上で定義されるシャノンエントロピー損失は、底部における自信のある学生予測を奨励するものである。 (ii) 強い教師付き分岐の知識を弱教師付き分岐に伝達し、自明な解を避けるためにエントロピー(学生信頼)項を導くクルバック・リーブラ(KL)発散項。 エントロピーとKLの発散の相乗効果は性能を著しく向上させることを示した。 また、シャノンエントロピー最小化と標準擬似マスク生成の興味深い関係について論じ、ラベルなし画素からの情報を活用するために前者が後者よりも好ましいと主張する。 2つの公開データセットの定量的および定性的な結果から,本手法は混合スーパービジョンフレームワークにおけるセマンティックセグメンテーションの他の戦略,および最近の半教師付きアプローチを著しく上回ることを示す。 さらに, 指導を減らし, トップブランチが指導する分枝は, 主に後者よりも優れていた。

Despite achieving promising results in a breadth of medical image segmentation tasks, deep neural networks require large training datasets with pixel-wise annotations. Obtaining these curated datasets is a cumbersome process which limits the application in scenarios where annotated images are scarce. Mixed supervision is an appealing alternative for mitigating this obstacle, where only a small fraction of the data contains complete pixel-wise annotations and other images have a weaker form of supervision. In this work, we propose a dual-branch architecture, where the upper branch (teacher) receives strong annotations, while the bottom one (student) is driven by limited supervision and guided by the upper branch. Combined with a standard cross-entropy loss over the labeled pixels, our novel formulation integrates two important terms: (i) a Shannon entropy loss defined over the less-supervised images, which encourages confident student predictions in the bottom branch; and (ii) a Kullback-Leibler (KL) divergence term, which transfers the knowledge of the strongly supervised branch to the less-supervised branch and guides the entropy (student-confidence) term to avoid trivial solutions. We show that the synergy between the entropy and KL divergence yields substantial improvements in performance. We also discuss an interesting link between Shannon-entropy minimization and standard pseudo-mask generation, and argue that the former should be preferred over the latter for leveraging information from unlabeled pixels. Quantitative and qualitative results on two publicly available datasets demonstrate that our method significantly outperforms other strategies for semantic segmentation within a mixed-supervision framework, as well as recent semi-supervised approaches. Moreover, we show that the branch trained with reduced supervision and guided by the top branch largely outperforms the latter.
翻訳日:2021-09-24 15:10:10 公開日:2021-09-21
# 科学会場推薦をめざして

Towards Explainable Scientific Venue Recommendations ( http://arxiv.org/abs/2109.11343v1 )

ライセンス: Link先を確認
Bastian Sch\"afermeier and Gerd Stumme and Tom Hanika(参考訳) 研究論文の提出に最適な科学会場(カンファレンス/ジャーナル)を選択することは、多面的な課題を構成する。 考慮すべき重要な側面は、研究トピックの適合性、会場の名声、受容の可能性である。 選択問題は、追加会場の継続的な出現によって悪化する。 このプロセスで著者を支援するための従来提案されたアプローチは、例えばWord2VecやTextCNNに基づく複雑なレコメンデーターシステムに依存していた。 しかし、これらはしばしば彼らの推奨についての説明を免れる。 本稿では,非負の行列因数分解に基づくトピックモデルによる推薦の解釈性の向上と,より単純な学習手法を用いて,競争力のある推薦性能を得ることができることの2つの側面から,最先端の手法を提案する。

Selecting the best scientific venue (i.e., conference/journal) for the submission of a research article constitutes a multifaceted challenge. Important aspects to consider are the suitability of research topics, a venue's prestige, and the probability of acceptance. The selection problem is exacerbated through the continuous emergence of additional venues. Previously proposed approaches for supporting authors in this process rely on complex recommender systems, e.g., based on Word2Vec or TextCNN. These, however, often elude an explanation for their recommendations. In this work, we propose an unsophisticated method that advances the state-of-the-art in two aspects: First, we enhance the interpretability of recommendations through non-negative matrix factorization based topic models; Second, we surprisingly can obtain competitive recommendation performance while using simpler learning methods.
翻訳日:2021-09-24 14:54:43 公開日:2021-09-21
# wsGAT: リンク予測のための重み付き署名付きグラフ注意ネットワーク

wsGAT: Weighted and Signed Graph Attention Networks for Link Prediction ( http://arxiv.org/abs/2109.11519v1 )

ライセンス: Link先を確認
Marco Grassia, Giuseppe Mangioni(参考訳) グラフニューラルネットワーク(gnns)は、グラフの表現を学習し、様々な領域から現実世界の問題に取り組むために広く使われている。 本稿では,グラフアテンションネットワーク(GAT)層の拡張であるwsGATを提案する。信頼ネットワークや相関ネットワークなどのユビキタスな,符号付きおよび重み付きリンクでグラフを処理できるGNNの欠如に対処する。 まず,重み付きリンク予測タスクにおけるGCNIIとリンクサイン予測タスクにおけるSGCNを比較し,提案手法の性能を評価する。 その後、これらの2つのタスクを組み合わせて、リンクの符号付き重みとその存在を予測するパフォーマンスを示す。 実世界のネットワークでは,wsGAT層を用いたモデルの方がGCNII層やSGCN層よりも優れており,符号付き重みが予測されると性能が損なわれることはない。

Graph Neural Networks (GNNs) have been widely used to learn representations on graphs and tackle many real-world problems from a wide range of domains. In this paper we propose wsGAT, an extension of the Graph Attention Network (GAT) layers, meant to address the lack of GNNs that can handle graphs with signed and weighted links, which are ubiquitous, for instance, in trust and correlation networks. We first evaluate the performance of our proposal by comparing against GCNII in the weighed link prediction task, and against SGCN in the link sign prediction task. After that, we combine the two tasks and show their performance on predicting the signed weight of links, and their existence. Our results on real-world networks show that models with wsGAT layers outperform the ones with GCNII and SGCN layers, and that there is no loss in performance when signed weights are predicted.
翻訳日:2021-09-24 14:44:54 公開日:2021-09-21
# (参考訳) 部品検出器を用いた顔面偽物発見 [全文訳有]

Finding Facial Forgery Artifacts with Parts-Based Detectors ( http://arxiv.org/abs/2109.10688v1 )

ライセンス: CC BY 4.0
Steven Schwarcz, Rama Chellappa(参考訳) 操作されたビデオ、特にディープニューラルネットワークを使って個人のアイデンティティが修正されたビデオは、現代においてますます関連する脅威になりつつある。 本稿では,これらの操作されたビデオを検出するための汎用的で説明可能なソリューションを開発する。 これを実現するために,我々は,顔の個々の部分に焦点を当てた一連の偽造検出システムを設計した。 これらの部分ベースの検出システムは、単一のアーキテクチャで組み合わせて使用することができ、私たちの望む基準をすべて満たし、データセット間で効果的に一般化し、決定を下す際にネットワークが何を見ているのかについての貴重な洞察を提供する。 したがって、これらの検出器を用いてfaceforensics++、celeb-df、facebook deepfake detection challengeデータセットの詳細な実証分析を行い、検出器が見つけたものだけでなく、データセット自体の有用な関連統計を収集し分析する。

Manipulated videos, especially those where the identity of an individual has been modified using deep neural networks, are becoming an increasingly relevant threat in the modern day. In this paper, we seek to develop a generalizable, explainable solution to detecting these manipulated videos. To achieve this, we design a series of forgery detection systems that each focus on one individual part of the face. These parts-based detection systems, which can be combined and used together in a single architecture, meet all of our desired criteria - they generalize effectively between datasets and give us valuable insights into what the network is looking at when making its decision. We thus use these detectors to perform detailed empirical analysis on the FaceForensics++, Celeb-DF, and Facebook Deepfake Detection Challenge datasets, examining not just what the detectors find but also collecting and analyzing useful related statistics on the datasets themselves.
翻訳日:2021-09-24 00:52:30 公開日:2021-09-21
# (参考訳) オンライン双方向マッチングのためのディープポリシー:強化学習アプローチ [全文訳有]

Deep Policies for Online Bipartite Matching: A Reinforcement Learning Approach ( http://arxiv.org/abs/2109.10380v1 )

ライセンス: CC BY 4.0
Mohammad Ali Alomrani, Reza Moravej, Elias B. Khalil(参考訳) コンピューティングタスクをサーバや広告に割り当てることから、シーケンシャルなオンラインマッチング問題はさまざまなドメインで発生します。 オンラインマッチングの課題は、将来の入力について不確実性がある間、取り消せない割り当てを行うことである。 理論計算機科学の文献では、ほとんどの政策はミオピックまたは自然の欲望である。 マッチングプロセスが定期的に繰り返される現実世界のアプリケーションでは、基礎となるデータ分布をより良い意思決定のために利用することができる。 本稿では,歴史データに対する試行錯誤に基づくマッチングポリシを導出するためのエンドツーエンド強化学習フレームワークを提案する。 我々は、一連のニューラルネットワークアーキテクチャ、設計特徴表現を考案し、2つのオンラインマッチング問題(エッジ重み付きオンライン2部マッチングとオンラインサブモジュラー2部マッチング)を経験的に評価する。 4つの合成データと実世界のデータセットにおいて,学習アプローチのほとんどが,古典的な欲望アルゴリズムよりも優れた性能を示す。 私たちのコードはhttps://github.com/l yeskhalil/corl.gitで公開しています。

From assigning computing tasks to servers and advertisements to users, sequential online matching problems arise in a wide variety of domains. The challenge in online matching lies in making irrevocable assignments while there is uncertainty about future inputs. In the theoretical computer science literature, most policies are myopic or greedy in nature. In real-world applications where the matching process is repeated on a regular basis, the underlying data distribution can be leveraged for better decision-making. We present an end-to-end Reinforcement Learning framework for deriving better matching policies based on trial-and-error on historical data. We devise a set of neural network architectures, design feature representations, and empirically evaluate them across two online matching problems: Edge-Weighted Online Bipartite Matching and Online Submodular Bipartite Matching. We show that most of the learning approaches perform significantly better than classical greedy algorithms on four synthetic and real-world datasets. Our code is publicly available at https://github.com/l yeskhalil/CORL.git.
翻訳日:2021-09-24 00:36:50 公開日:2021-09-21
# (参考訳) 意味変化検出のための文法的プロファイリング [全文訳有]

Grammatical Profiling for Semantic Change Detection ( http://arxiv.org/abs/2109.10397v1 )

ライセンス: CC BY 4.0
Mario Giulianelli, Andrey Kutuzov, Lidia Pivovarova(参考訳) 意味論、形態論、構文は強く相互依存している。 しかし、セマンティクス変化検出のための計算手法の大部分は、主にセマンティクスをエンコードする分布的単語表現を用いる。 本稿では,単語の形態合成行動の変化に基づく文法的プロファイリング法について検討する。 意味的変化の検出や,分布的意味的手法を上回ることさえ可能であることを実証する。 本稿では,文法的プロファイリングシステムによる予測を詳細に定性的かつ定量的に分析し,その妥当性を示す。

Semantics, morphology and syntax are strongly interdependent. However, the majority of computational methods for semantic change detection use distributional word representations which encode mostly semantics. We investigate an alternative method, grammatical profiling, based entirely on changes in the morphosyntactic behaviour of words. We demonstrate that it can be used for semantic change detection and even outperforms some distributional semantic methods. We present an in-depth qualitative and quantitative analysis of the predictions made by our grammatical profiling system, showing that they are plausible and interpretable.
翻訳日:2021-09-24 00:12:22 公開日:2021-09-21
# (参考訳) 季節別予測のための学習ベンチマーク

Learned Benchmarks for Subseasonal Forecasting ( http://arxiv.org/abs/2109.10399v1 )

ライセンス: CC BY 4.0
Soukayna Mouatadid, Paulo Orenstein, Genevieve Flaspohler, Miruna Oprescu, Judah Cohen, Franklyn Wang, Sean Knight, Maria Geogdzhayeva, Sam Levang, Ernest Fraenkel and Lester Mackey(参考訳) 我々は,実運用と最先端機械学習と深層学習を両立させた,単純な学習ベンチマークモデルの季節別予測ツールキットを開発した。 新しいモデルには (a)気候予報システム(CFSv2)よりも、気候学の適応的な代替品である気候学++は、降水量に対して9%正確で250%熟練している。 (b) CFSv2++は、温度と降水精度を7~8%向上し、スキルを50~75%向上させる学習されたCFSv2補正である。 c)persistence++はcfsv2予測と遅延測定を組み合わせた拡張永続化モデルで、温度と降水量の精度を6~9%向上し、スキルを40~130%向上させる。 連続する米国全体で、当社のclimatology++、cfsv2++、persistence++ツールキットは、標準的な気象基準、最先端のマシン、ディープラーニングメソッド、欧州中規模気象予報センターを一貫して上回っています。 全体として、学習による従来の予測手法の強化は、次世代のサブシーズン予測ベンチマークを構築するための効果的で計算量的に安価な戦略をもたらすことが分かりました。

We develop a subseasonal forecasting toolkit of simple learned benchmark models that outperform both operational practice and state-of-the-art machine learning and deep learning methods. Our new models include (a) Climatology++, an adaptive alternative to climatology that, for precipitation, is 9% more accurate and 250% more skillful than the United States operational Climate Forecasting System (CFSv2); (b) CFSv2++, a learned CFSv2 correction that improves temperature and precipitation accuracy by 7-8% and skill by 50-275%; and (c) Persistence++, an augmented persistence model that combines CFSv2 forecasts with lagged measurements to improve temperature and precipitation accuracy by 6-9% and skill by 40-130%. Across the contiguous U.S., our Climatology++, CFSv2++, and Persistence++ toolkit consistently outperforms standard meteorological baselines, state-of-the-art machine and deep learning methods, and the European Centre for Medium-Range Weather Forecasts ensemble. Overall, we find that augmenting traditional forecasting approaches with learned enhancements yields an effective and computationally inexpensive strategy for building the next generation of subseasonal forecasting benchmarks.
翻訳日:2021-09-23 23:57:58 公開日:2021-09-21
# (参考訳) ディープニューラルネットワークを用いたディジタル信号処理 [全文訳有]

Digital Signal Processing Using Deep Neural Networks ( http://arxiv.org/abs/2109.10404v1 )

ライセンス: CC BY 4.0
Brian Shevitski, Yijing Watkins, Nicole Man, and Michael Girard(参考訳) 現在、無線周波数(RF)通信の物理層に対するディープニューラルネットワーク(DNN)の有用性に大きな関心がある。 本稿では,RF領域の問題を解決するために特別に設計されたDNNについて述べる。 本モデルは,自動エンコーダ畳み込みネットワークとトランスフォーマーネットワークを組み合わせることで,特徴抽出と注意機構を活用し,複数の重要な通信ネットワークとデジタル信号処理(DSP)タスクを実現する。 また,DNNをトレーニングし,自動変調分類を行い,伝送路効果を推測・補正し,ベースバンドRF信号を直接復調することのできる,新しいオープンデータセットと物理データ拡張モデルを提案する。

Currently there is great interest in the utility of deep neural networks (DNNs) for the physical layer of radio frequency (RF) communications. In this manuscript, we describe a custom DNN specially designed to solve problems in the RF domain. Our model leverages the mechanisms of feature extraction and attention through the combination of an autoencoder convolutional network with a transformer network, to accomplish several important communications network and digital signals processing (DSP) tasks. We also present a new open dataset and physical data augmentation model that enables training of DNNs that can perform automatic modulation classification, infer and correct transmission channel effects, and directly demodulate baseband RF signals.
翻訳日:2021-09-23 23:56:11 公開日:2021-09-21
# (参考訳) インプチューションのない公正性:不一致値の公正予測のための決定木アプローチ [全文訳有]

Fairness without Imputation: A Decision Tree Approach for Fair Prediction with Missing Values ( http://arxiv.org/abs/2109.10431v1 )

ライセンス: CC BY 4.0
Haewon Jeong, Hao Wang, Flavio P. Calmon(参考訳) 不足する値のデータを用いた機械学習モデルのトレーニングの公平性に関する懸念について検討する。 文献には多くの公正な介入方法があるが、そのほとんどは入力として完全なトレーニングセットを必要とする。 実際には、データは値が欠落しており、データ不足パターンはグループ属性(例えば、性別や人種)に依存します。 市販のフェアラーニングアルゴリズムをインデュートデータセットに適用するだけで、不公平なモデルになる可能性がある。 本稿では, インデュートデータセットを用いたトレーニングにおいて, 識別リスクの異なるソースを理論的に解析する。 そこで我々は,個別の計算・学習プロセスを必要としない決定木に基づく統合的アプローチを提案する。 代わりに、明示的な計算を必要としないMIA(incorporated as attribute)のない木を訓練し、公平に規則化された目的関数を最適化する。 本手法は,実世界のデータセットを複数実験した結果,既存の公平性介入手法よりも優れていることを示す。

We investigate the fairness concerns of training a machine learning model using data with missing values. Even though there are a number of fairness intervention methods in the literature, most of them require a complete training set as input. In practice, data can have missing values, and data missing patterns can depend on group attributes (e.g. gender or race). Simply applying off-the-shelf fair learning algorithms to an imputed dataset may lead to an unfair model. In this paper, we first theoretically analyze different sources of discrimination risks when training with an imputed dataset. Then, we propose an integrated approach based on decision trees that does not require a separate process of imputation and learning. Instead, we train a tree with missing incorporated as attribute (MIA), which does not require explicit imputation, and we optimize a fairness-regularized objective function. We demonstrate that our approach outperforms existing fairness intervention methods applied to an imputed dataset, through several experiments on real-world datasets.
翻訳日:2021-09-23 23:43:50 公開日:2021-09-21
# (参考訳) 交叉バイアスに対するデバイアス手法の評価 [全文訳有]

Evaluating Debiasing Techniques for Intersectional Biases ( http://arxiv.org/abs/2109.10441v1 )

ライセンス: CC BY 4.0
Shivashankar Subramanian, Xudong Han, Timothy Baldwin, Trevor Cohn, Lea Frermann(参考訳) バイアスはnlpモデルに浸透し、自動デバイアス技術の開発を動機付ける。 NLP脱バイアス法の評価は、主に二項性や人種に関する脱バイアスなど、分離された二項性属性に制限されているが、多くのコーパスは、おそらく高い濃度で複数の属性を含む。 本稿では、真に公平なモデルでは、単一の属性だけでなく交叉群も含む「ジェリーマンデリング」群を考える必要があると論じる。 我々は,nlpに新しいバイアス制約付きモデルと,複数の保護属性を処理可能な反復的ヌルスペース投影手法の拡張を評価する。

Bias is pervasive in NLP models, motivating the development of automatic debiasing techniques. Evaluation of NLP debiasing methods has largely been limited to binary attributes in isolation, e.g., debiasing with respect to binary gender or race, however many corpora involve multiple such attributes, possibly with higher cardinality. In this paper we argue that a truly fair model must consider `gerrymandering' groups which comprise not only single attributes, but also intersectional groups. We evaluate a form of bias-constrained model which is new to NLP, as well an extension of the iterative nullspace projection technique which can handle multiple protected attributes.
翻訳日:2021-09-23 23:17:49 公開日:2021-09-21
# (参考訳) 公平なクラス不均衡学習 [全文訳有]

Fairness-aware Class Imbalanced Learning ( http://arxiv.org/abs/2109.10444v1 )

ライセンス: CC BY 4.0
Shivashankar Subramanian, Afshin Rahimi, Timothy Baldwin, Trevor Cohn, Lea Frermann(参考訳) クラス不均衡は、多くのNLPタスクにおいて共通の課題であり、訓練データのバイアスが少数派のグループを犠牲にして多数派により高い精度をもたらすというバイアスと明確なつながりを持つ。 しかし、伝統的にクラス不均衡な学習とバイアス緩和の研究の間には隔たりがあり、最近になってこの2つが共通のレンズを通して観察された。 本研究では,ツイート感情と職業分類のロングテール学習法を評価し,公平性を強制する手法を用いてマージンロスベースアプローチを拡張する。 制御された実験を通して、提案手法がクラス不均衡と人口統計バイアスの緩和に役立つことを実証的に示す。

Class imbalance is a common challenge in many NLP tasks, and has clear connections to bias, in that bias in training data often leads to higher accuracy for majority groups at the expense of minority groups. However there has traditionally been a disconnect between research on class-imbalanced learning and mitigating bias, and only recently have the two been looked at through a common lens. In this work we evaluate long-tail learning methods for tweet sentiment and occupation classification, and extend a margin-loss based approach with methods to enforce fairness. We empirically show through controlled experiments that the proposed approaches help mitigate both class imbalance and demographic biases.
翻訳日:2021-09-23 23:09:12 公開日:2021-09-21
# (参考訳) パーソナライズされたオンライン機械学習

Personalized Online Machine Learning ( http://arxiv.org/abs/2109.10452v1 )

ライセンス: CC BY 4.0
Ivana Malenica, Rachael V. Phillips, Romain Pirracchio, Antoine Chambaz, Alan Hubbard, Mark J. van der Laan(参考訳) 本研究では、パーソナライズされたオンライン・スーパーラーナー(POSL)について紹介する。これは、パーソナライゼーションの度合いに応じて最適化手順が適合するストリーミングデータのためのオンライン・アンサンブル・アルゴリズムである。 すなわち、POSLはベースラインの共変量に関する予測を最適化するので、パーソナライゼーションは完全な個別化(つまり、ベースラインの共変量 ID に関する最適化)から多くの個人(つまり、共通ベースラインの共変量に関する最適化)まで様々である。 オンラインアルゴリズムとして、POSLはリアルタイムで学習する。 poslは、異なるトレーニングと更新時間を持つオンラインアルゴリズム、手順中に更新されない固定アルゴリズム、多くの個人の時系列から学習するプールアルゴリズム、単一の時系列内で学習する個別化アルゴリズムなど、さまざまな候補アルゴリズムを活用することができる。 基本学習戦略のハイブリッド化は,収集したデータ量,時系列の定常性,時系列群の相互特性に依存する。 本質的には、POSLはデータの基盤となる(未知の)構造に基づいて、時間を通して、あるいは両方を通してサンプルを学習するかを決定する。 現実的な予測シナリオを反映した広範囲なシミュレーションや、医療データアプリケーションでは、POSLの性能を現在の学習方法やオンライン学習法と比較して検討する。 poslは時系列データの信頼性の高い予測を提供し,データ生成環境の変化に適応できることを示す。 時系列上で動的に時系列を入力/出力する設定に拡張することで,POSLの実用性をさらに向上する。

In this work, we introduce the Personalized Online Super Learner (POSL) -- an online ensembling algorithm for streaming data whose optimization procedure accommodates varying degrees of personalization. Namely, POSL optimizes predictions with respect to baseline covariates, so personalization can vary from completely individualized (i.e., optimization with respect to baseline covariate subject ID) to many individuals (i.e., optimization with respect to common baseline covariates). As an online algorithm, POSL learns in real-time. POSL can leverage a diversity of candidate algorithms, including online algorithms with different training and update times, fixed algorithms that are never updated during the procedure, pooled algorithms that learn from many individuals' time-series, and individualized algorithms that learn from within a single time-series. POSL's ensembling of this hybrid of base learning strategies depends on the amount of data collected, the stationarity of the time-series, and the mutual characteristics of a group of time-series. In essence, POSL decides whether to learn across samples, through time, or both, based on the underlying (unknown) structure in the data. For a wide range of simulations that reflect realistic forecasting scenarios, and in a medical data application, we examine the performance of POSL relative to other current ensembling and online learning methods. We show that POSL is able to provide reliable predictions for time-series data and adjust to changing data-generating environments. We further cultivate POSL's practicality by extending it to settings where time-series enter/exit dynamically over chronological time.
翻訳日:2021-09-23 22:58:56 公開日:2021-09-21
# (参考訳) 科学的クレームのきめ細かい知識グラフの抽出:データセットとトランスフォーマーに基づく結果 [全文訳有]

Extracting Fine-Grained Knowledge Graphs of Scientific Claims: Dataset and Transformer-Based Results ( http://arxiv.org/abs/2109.10453v1 )

ライセンス: CC BY 4.0
Ian H. Magnusson and Scott E. Friedman(参考訳) 近年の変圧器に基づくアプローチは, 関係科学情報抽出における有望な成果を示している。 既存のデータセットは、研究の実施方法の高レベルな説明に焦点を当てている。 代わりに私たちは、社会行動科学(sbs)、pubmed、cord-19の論文から得られた科学的な主張のデータセットであるsciclaimを構築することで、実験的な関連がどのように提示されるかについての微妙な点に注目します。 我々の新しいグラフアノテーションスキーマは、粗粒度エンティティをノードとして、それらの間のエッジとして、そしてエンティティとその関係を変更する細粒度属性を、コーパス内の合計12,738個のラベルに組み込む。 より多くのラベルタイプと以前のデータセットのラベル密度を2倍以上含むことで、sciclaimは、その資格、サブタイプ、証拠とともに、実験変数に対する因果関係、比較値、予測値、統計値、比例関係をキャプチャする。 我々は、トランスフォーマティブ・エンティティと関係抽出の作業を拡張し、我々のスキーマを効果的に推論し、科学的なクレームのきめ細かい知識グラフの期待を示す。

Recent transformer-based approaches demonstrate promising results on relational scientific information extraction. Existing datasets focus on high-level description of how research is carried out. Instead we focus on the subtleties of how experimental associations are presented by building SciClaim, a dataset of scientific claims drawn from Social and Behavior Science (SBS), PubMed, and CORD-19 papers. Our novel graph annotation schema incorporates not only coarse-grained entity spans as nodes and relations as edges between them, but also fine-grained attributes that modify entities and their relations, for a total of 12,738 labels in the corpus. By including more label types and more than twice the label density of previous datasets, SciClaim captures causal, comparative, predictive, statistical, and proportional associations over experimental variables along with their qualifications, subtypes, and evidence. We extend work in transformer-based joint entity and relation extraction to effectively infer our schema, showing the promise of fine-grained knowledge graphs in scientific claims and beyond.
翻訳日:2021-09-23 22:57:43 公開日:2021-09-21
# (参考訳) 因果バンドの対効果公正化 [全文訳有]

Achieving Counterfactual Fairness for Causal Bandit ( http://arxiv.org/abs/2109.10458v1 )

ライセンス: CC BY 4.0
Wen Huang, Lu Zhang, Xintao Wu(参考訳) オンラインレコメンデーションでは、顧客は基盤となるディストリビューションから逐次かつ確率的な方法で到着し、オンライン決定モデルは、いくつかの戦略に基づいて、到着する個人ごとに選択されたアイテムを推奨する。 本研究は,顧客に対して,ユーザ側の公正性を達成しつつ,期待される報酬を最大化するために,各ステップで商品を推薦する方法について検討する。 そこで我々は,まず,包帯に因果推論を取り入れ,腕選択戦略をモデル化するためのソフト介入を適用して,d-セパレーションに基づくCBアルゴリズム(D-UCB)を提案し,低累積後悔を実現するために必要な探索量を削減するために,d-セパレーションセットの利用について検討する。 そこで我々は, 対実的個人的公正性を達成するためのフェア因果バンドイット (F-UCB) を提案する。 理論的解析と経験的評価の両方がアルゴリズムの有効性を示している。

In online recommendation, customers arrive in a sequential and stochastic manner from an underlying distribution and the online decision model recommends a chosen item for each arriving individual based on some strategy. We study how to recommend an item at each step to maximize the expected reward while achieving user-side fairness for customers, i.e., customers who share similar profiles will receive a similar reward regardless of their sensitive attributes and items being recommended. By incorporating causal inference into bandits and adopting soft intervention to model the arm selection strategy, we first propose the d-separation based UCB algorithm (D-UCB) to explore the utilization of the d-separation set in reducing the amount of exploration needed to achieve low cumulative regret. Based on that, we then propose the fair causal bandit (F-UCB) for achieving the counterfactual individual fairness. Both theoretical analysis and empirical evaluation demonstrate effectiveness of our algorithms.
翻訳日:2021-09-23 22:45:28 公開日:2021-09-21
# バイオメディカルQAシステムを実践するには何が必要か?

What Would it Take to get Biomedical QA Systems into Practice? ( http://arxiv.org/abs/2109.10415v1 )

ライセンス: Link先を確認
Gregory Kell, Iain J. Marshall, Byron C. Wallace, Andre Jaun(参考訳) 医療質問応答システム(QA)は、臨床医が需要に対する治療や診断について不確実性に答える可能性を秘めている。 しかし、NLPコミュニティによる一般QAの進歩にもかかわらず、医療QAシステムはまだ臨床環境では広く使われていない。 この理由の1つとして、臨床医がQAシステムのアウトプットを信頼できないことがあることが挙げられる。 本稿では,もし満たせば,生体医学的qaシステムの有用性が高まる可能性があり,それが実際にこのようなシステムの採用につながる可能性がある,という一連の基準について論じる。 これらの基準に関して既存のモデル、タスク、データセットを評価し、これまで提案されていたアプローチの欠点を強調し、より有用なQAシステムを指す。

Medical question answering (QA) systems have the potential to answer clinicians uncertainties about treatment and diagnosis on demand, informed by the latest evidence. However, despite the significant progress in general QA made by the NLP community, medical QA systems are still not widely used in clinical environments. One likely reason for this is that clinicians may not readily trust QA system outputs, in part because transparency, trustworthiness, and provenance have not been key considerations in the design of such models. In this paper we discuss a set of criteria that, if met, we argue would likely increase the utility of biomedical QA systems, which may in turn lead to adoption of such systems in practice. We assess existing models, tasks, and datasets with respect to these criteria, highlighting shortcomings of previously proposed approaches and pointing toward what might be more usable QA systems.
翻訳日:2021-09-23 13:59:33 公開日:2021-09-21
# 判別パターンを超えて:決定規則アンサンブルのロバスト性について

Beyond Discriminant Patterns: On the Robustness of Decision Rule Ensembles ( http://arxiv.org/abs/2109.10432v1 )

ライセンス: Link先を確認
Xin Du, Subramanian Ramamoorthy, Wouter Duivesteijn, Jin Tian, Mykola Pechenizkiy(参考訳) 局所的な決定規則は、関連するパターンの局所的な性質から、より説明しやすいと一般的に理解されている。 勾配向上などの数値最適化手法により、局所的な決定規則のアンサンブルは、グローバル構造を含むデータに対して良好な予測性能を得ることができる。 一方、機械学習モデルは、医療や金融といった高度な分野の問題を解決するために、ますます使われてきている。 ここでは,分散シフトの存在下で,これらのモデルがデプロイメント環境において堅牢に動作できるか,どのように機能するかを,実践者が理解する必要があるという,新たなコンセンサスが存在する。 局所的な決定規則に関する過去の研究は、分散シフトに対する頑健さを考慮せずに、主に差別パターンの最大化に焦点を合わせてきた。 このギャップを埋めるために,我々は,トレーニング環境とデプロイメント環境の両方において堅牢な局所決定ルールを学習し,アサンブルする新しい手法を提案する。 具体的には,下位システムへの介入の結果として,サブポピュレーションと展開環境の分布変化を考慮し,因果知識を活用することを提案する。 最適規則と安定規則を探索するための因果知識に基づく2つの正規化項を提案する。 合成データセットとベンチマークデータセットの両方で実験した結果,本手法は複数環境における分布シフトに対して有効かつロバストであることが判明した。

Local decision rules are commonly understood to be more explainable, due to the local nature of the patterns involved. With numerical optimization methods such as gradient boosting, ensembles of local decision rules can gain good predictive performance on data involving global structure. Meanwhile, machine learning models are being increasingly used to solve problems in high-stake domains including healthcare and finance. Here, there is an emerging consensus regarding the need for practitioners to understand whether and how those models could perform robustly in the deployment environments, in the presence of distributional shifts. Past research on local decision rules has focused mainly on maximizing discriminant patterns, without due consideration of robustness against distributional shifts. In order to fill this gap, we propose a new method to learn and ensemble local decision rules, that are robust both in the training and deployment environments. Specifically, we propose to leverage causal knowledge by regarding the distributional shifts in subpopulations and deployment environments as the results of interventions on the underlying system. We propose two regularization terms based on causal knowledge to search for optimal and stable rules. Experiments on both synthetic and benchmark datasets show that our method is effective and robust against distributional shifts in multiple environments.
翻訳日:2021-09-23 13:57:57 公開日:2021-09-21
# 近距離解離セントロイドの分類

Classification with Nearest Disjoint Centroids ( http://arxiv.org/abs/2109.10436v1 )

ライセンス: Link先を確認
Nicolas Fraiman, Zichao Li(参考訳) 本稿では,近距離セントロイドに基づく新しい分類法を開発し,最も近距離セントロイド分類器と呼ぶ。 本手法は次の2つの側面において最寄りのセントロイド分類器と異なる: 1) 中心ロイドはすべての特徴の代わりに特徴の解離部分集合に基づいて定義され、(2) 距離はユークリッドノルムの代わりに次元正規化ノルムによって誘導される。 提案手法に関する理論的結果をいくつか提示する。 さらに,本手法で使用する特徴の分離部分集合を探索し,特徴選択を行うアルゴリズムを拡張した,適応型k-meansクラスタリングに基づく単純なアルゴリズムを提案する。 シミュレーションデータと実世界の遺伝子発現データセットを用いて,本手法の性能を他の密接な分類器と比較した。 提案手法は, 誤分類率を小さくし, 各種設定や状況において少ない特徴を使用すれば, 競合する分類器よりも優れていることを示す。

In this paper, we develop a new classification method based on nearest centroid, and it is called the nearest disjoint centroid classifier. Our method differs from the nearest centroid classifier in the following two aspects: (1) the centroids are defined based on disjoint subsets of features instead of all the features, and (2) the distance is induced by the dimensionality-norma lized norm instead of the Euclidean norm. We provide a few theoretical results regarding our method. In addition, we propose a simple algorithm based on adapted k-means clustering that can find the disjoint subsets of features used in our method, and extend the algorithm to perform feature selection. We evaluate and compare the performance of our method to other closely related classifiers on both simulated data and real-world gene expression datasets. The results demonstrate that our method is able to outperform other competing classifiers by having smaller misclassification rates and/or using fewer features in various settings and situations.
翻訳日:2021-09-23 13:54:57 公開日:2021-09-21
# リアルタイム顔分析システムに向けて

Towards a Real-Time Facial Analysis System ( http://arxiv.org/abs/2109.10393v1 )

ライセンス: Link先を確認
Bishwo Adhikari, Xingyang Ni, Esa Rahtu, Heikki Huttunen(参考訳) 顔分析はコンピュータビジョンの活発な研究領域であり、多くの実用的応用がある。 既存の研究のほとんどは、特定のタスクに対処し、パフォーマンスを最大化することに焦点を当てている。 完全な顔分析システムでは、スムーズな体験を確保するためにこれらのタスクを効率的に解決する必要がある。 本研究では,リアルタイム顔分析システムのシステムレベル設計について述べる。 オブジェクトの検出、分類、回帰のためのディープニューラルネットワークの集合により、システムは、カメラビューに現れる人の年齢、性別、表情、顔の類似性を認識する。 個別タスクの並列化と相互運用について検討する。 一般的なオフ・ザ・シェルフアーキテクチャの結果、システムの精度は最先端の手法に匹敵し、認識速度はリアルタイム要件を満たすことが示された。 さらに,最初の3つの属性,すなわち年齢,性別,表情を共同で予測するマルチタスクネットワークを提案する。 ソースコードとトレーニングされたモデルはhttps://github.com/m ahehu/tut-live-age-e stimatorで入手できる。

Facial analysis is an active research area in computer vision, with many practical applications. Most of the existing studies focus on addressing one specific task and maximizing its performance. For a complete facial analysis system, one needs to solve these tasks efficiently to ensure a smooth experience. In this work, we present a system-level design of a real-time facial analysis system. With a collection of deep neural networks for object detection, classification, and regression, the system recognizes age, gender, facial expression, and facial similarity for each person that appears in the camera view. We investigate the parallelization and interplay of individual tasks. Results on common off-the-shelf architecture show that the system's accuracy is comparable to the state-of-the-art methods, and the recognition speed satisfies real-time requirements. Moreover, we propose a multitask network for jointly predicting the first three attributes, i.e., age, gender, and facial expression. Source code and trained models are available at https://github.com/m ahehu/TUT-live-age-e stimator.
翻訳日:2021-09-23 13:53:32 公開日:2021-09-21
# retronlu: 拡張されたタスク指向意味解析

RETRONLU: Retrieval Augmented Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2109.10410v1 )

ライセンス: Link先を確認
Vivek Gupta, Akshat Shrivastava, Adithya Sagar, Armen Aghajanyan and Denis Savenkov(参考訳) 大きな事前学習された言語モデルはパラメータに多くの知識を蓄積するが、非パラメトリックな検索ベースのメモリによる拡張は、質問応答のような知識に焦点を当てたタスクにおけるデータ効率の改善から多くの利点を得られることが示されている。 本稿では,対話型アシスタントのためのマルチドメインタスク指向意味解析問題に対して,検索に基づくモデリング手法を適用する。 我々のアプローチであるRetroNLUは、シーケンス・ツー・シーケンス・モデルアーキテクチャを検索コンポーネントで拡張し、既存の類似例を抽出し、モデルへの追加入力として提供する。 特に2つの設定を分析して 入力を補足します (a)最も近い隣接発話(発話−nn)を検索し、 (b)最も近い隣接発話(semparse-nn)の基底意味解析 この手法はベースライン法を1.5%の絶対マクロf1で上回り、特に低リソース環境ではベースラインモデルの精度と40%のデータとのマッチングを行う。 さらに、近隣の検索コンポーネントの品質、モデルの感度を分析し、発話の複雑さの異なる意味解析の性能を分解する。

While large pre-trained language models accumulate a lot of knowledge in their parameters, it has been demonstrated that augmenting it with non-parametric retrieval-based memory has a number of benefits from accuracy improvements to data efficiency for knowledge-focused tasks, such as question answering. In this paper, we are applying retrieval-based modeling ideas to the problem of multi-domain task-oriented semantic parsing for conversational assistants. Our approach, RetroNLU, extends a sequence-to-sequence model architecture with a retrieval component, used to fetch existing similar examples and provide them as an additional input to the model. In particular, we analyze two settings, where we augment an input with (a) retrieved nearest neighbor utterances (utterance-nn), and (b) ground-truth semantic parses of nearest neighbor utterances (semparse-nn). Our technique outperforms the baseline method by 1.5% absolute macro-F1, especially at the low resource setting, matching the baseline model accuracy with only 40% of the data. Furthermore, we analyze the nearest neighbor retrieval component's quality, model sensitivity and break down the performance for semantic parses of different utterance complexity.
翻訳日:2021-09-23 13:52:39 公開日:2021-09-21
# 構造を通じた学習:深層神経形態的知識グラフ埋め込みに向けて

Learning through structure: towards deep neuromorphic knowledge graph embeddings ( http://arxiv.org/abs/2109.10376v1 )

ライセンス: Link先を確認
Victor Caceres Chian, Marcel Hildebrandt, Thomas Runkler, Dominik Dold(参考訳) グラフ構造化データの潜在表現の計算は、分子合成からソーシャルネットワーク分析、レコメンダシステムまで、多くの産業および学術アプリケーションにおいてユビキタスな学習タスクである。 知識グラフはセマンティックウェブに関連する最もポピュラーで広く使われているデータ表現の一つである。 機械可読形式で事実知識を構造化するのに加えて、知識グラフは多くの人工知能アプリケーションのバックボーンとなり、さまざまな学習アルゴリズムにコンテキスト情報を取り込むことができる。 グラフニューラルネットワークは、隣接ノード間のメッセージパッシングヒューリスティックを介して、低次元ベクトル空間内のグラフ構造を符号化しようとする。 近年、さまざまなグラフニューラルネットワークアーキテクチャが多くの学習タスクにおいて画期的なパフォーマンスを示している。 本研究では,知識グラフ推論のための深層グラフ学習アーキテクチャをニューロモルフィックアーキテクチャにマッピングする手法を提案する。 ランダムに初期化され、未学習のグラフニューラルネットワークが局所的なグラフ構造を保存することができるという知見に基づいて、浅い知識グラフ埋め込みモデルを備えた凍結ニューラルネットワークを構成する。 我々は,従来型のハードウェア上では,性能水準を維持しながら,高速化とメモリの大幅な削減を実現していることを示す。 さらに,凍結したアーキテクチャをスパイキングニューラルネットワークに拡張し,ニューロモーフィックハードウェアの実装に適した,新しい,イベントベースかつ高スパースなナレッジグラフ埋め込みアルゴリズムを導入する。

Computing latent representations for graph-structured data is an ubiquitous learning task in many industrial and academic applications ranging from molecule synthetization to social network analysis and recommender systems. Knowledge graphs are among the most popular and widely used data representations related to the Semantic Web. Next to structuring factual knowledge in a machine-readable format, knowledge graphs serve as the backbone of many artificial intelligence applications and allow the ingestion of context information into various learning algorithms. Graph neural networks attempt to encode graph structures in low-dimensional vector spaces via a message passing heuristic between neighboring nodes. Over the recent years, a multitude of different graph neural network architectures demonstrated ground-breaking performances in many learning tasks. In this work, we propose a strategy to map deep graph learning architectures for knowledge graph reasoning to neuromorphic architectures. Based on the insight that randomly initialized and untrained (i.e., frozen) graph neural networks are able to preserve local graph structures, we compose a frozen neural network with shallow knowledge graph embedding models. We experimentally show that already on conventional computing hardware, this leads to a significant speedup and memory reduction while maintaining a competitive performance level. Moreover, we extend the frozen architecture to spiking neural networks, introducing a novel, event-based and highly sparse knowledge graph embedding algorithm that is suitable for implementation in neuromorphic hardware.
翻訳日:2021-09-23 13:52:08 公開日:2021-09-21
# 場レベルでの宇宙推論のためのバロン効果のロバストな辺縁化

Robust marginalization of baryonic effects for cosmological inference at the field level ( http://arxiv.org/abs/2109.10360v1 )

ライセンス: Link先を確認
Francisco Villaescusa-Navarro, Shy Genel, Daniel Angles-Alcazar, David N. Spergel, Yin Li, Benjamin Wandelt, Leander Thiele, Andrina Nicola, Jose Manuel Zorrilla Matilla, Helen Shao, Sultan Hassan, Desika Narayanan, Romeel Dave, Mark Vogelsberger(参考訳) 我々は、CAMELSプロジェクトの何千もの流体力学シミュレーションから、総質量表面密度を含む$(25\,h^{-1}{\rm Mpc})^2$2Dの2次元マップから、可能性のない推論を行うようにニューラルネットワークを訓練する。 ネットワークは、全ての解決されたスケール (\gtrsim 100\,h^{-1}{\rm kpc}$) から一点関数とパワースペクトルを越えて情報を抽出することができ、フィールドレベルではバロン物理学よりも強固な辺縁化を行うことができる: このモデルは、そのシミュレーションから完全に異なるシミュレーションから$\omega_{\rm m} (\pm 4\%)$と$\sigma_8 (\pm 2.5\%)$の値を推測できる。

We train neural networks to perform likelihood-free inference from $(25\,h^{-1}{\rm Mpc})^2$ 2D maps containing the total mass surface density from thousands of hydrodynamic simulations of the CAMELS project. We show that the networks can extract information beyond one-point functions and power spectra from all resolved scales ($\gtrsim 100\,h^{-1}{\rm kpc}$) while performing a robust marginalization over baryonic physics at the field level: the model can infer the value of $\Omega_{\rm m} (\pm 4\%)$ and $\sigma_8 (\pm 2.5\%)$ from simulations completely different to the ones used to train it.
翻訳日:2021-09-23 13:49:59 公開日:2021-09-21
# スマートフォン画像からの沿岸サルガッサムレベル推定

Coast Sargassum Level Estimation from Smartphone Pictures ( http://arxiv.org/abs/2109.10390v1 )

ライセンス: Link先を確認
Uriarte-Arcia Abril Valeria, Vasquez-Gomez Juan Irving, Taud Hind, Garcia-Floriano Andres, Ventura-Molina Elias(参考訳) 2011年以降、メキシコカリブ海でサルガッサム・ナタンとサルガッサム・フルリタンという2種の表層居住藻類の有意かつ非定型的な出現が検出されている。 この大量の藻の蓄積は環境と経済に大きな影響を与えた。 そのため, 政府, 生態学者, 地方企業にとって, カリブ海沿岸に流入するサルガッサムの量を追跡することが重要である。 高解像度の衛星画像は高価か、遅れる可能性がある。 そこで本稿では,地上レベルのスマートフォン写真からサルガッサム量を推定する。 コンピュータビジョンの観点からは,3次元世界に関する情報は提供されないため,5つのラベルセットが定義する分類問題としてモデル化する必要があるため,この問題は非常に困難である。 この目的のために、facebookやinstagramなどの公開フォーラムから1000以上のサンプルを集めたデータセットを構築し、最先端の畳み込みネットワークをいくつかテストしました。 その結果、微調整下で訓練されたVGGネットワークが最も優れた性能を示した。 より多くの例で到達した精度は向上するが、現在の予測分布は狭く、予測は記録保持や生態的行動の迅速化に適している。

Since 2011, significant and atypical arrival of two species of surface dwelling algae, Sargassum natans and Sargassum Fluitans, have been detected in the Mexican Caribbean. This massive accumulation of algae has had a great environmental and economic impact. Therefore, for the government, ecologists, and local businesses, it is important to keep track of the amount of sargassum that arrives on the Caribbean coast. High-resolution satellite imagery is expensive or may be time delayed. Therefore, we propose to estimate the amount of sargassum based on ground-level smartphone photographs. From the computer vision perspective, the problem is quite difficult since no information about the 3D world is provided, in consequence, we have to model it as a classification problem, where a set of five labels define the amount. For this purpose, we have built a dataset with more than one thousand examples from public forums such as Facebook or Instagram and we have tested several state-of-the-art convolutional networks. As a result, the VGG network trained under fine-tuning showed the best performance. Even though the reached accuracy could be improved with more examples, the current prediction distribution is narrow, so the predictions are adequate for keeping a record and taking quick ecological actions.
翻訳日:2021-09-23 13:46:42 公開日:2021-09-21
# 深層学習フレームワーク評価のためのデータセットの選択

Selecting Datasets for Evaluating an Enhanced Deep Learning Framework ( http://arxiv.org/abs/2109.10442v1 )

ライセンス: Link先を確認
Kudakwashe Dandajena, Isabella M. Venter, Mehrdad Ghaziasgar and Reg Dodds(参考訳) 既存の解析技術に関連する制約に対処するフレームワークが開発された。 この研究は続くステップを扱い、不規則な逐次パターンによって特徴づけられる適切なデータセットを選択する。 400以上の研究論文から抽出された様々な情報源から抽出されたデータセットを識別,選択,探索し,評価するために,アウタリエ計算のための異種間距離法と定性ビラーアルゴリズムを適用し,これらのデータセットの周期的なピーク検出を行った。 開発されたフレームワークは、最も適切なデータセットを使用してテストされた。 本研究は、金融市場と日替わりの通貨交換ドメインが、不規則なパターンのレベルが高いため、設計したディープラーニングフレームワークの評価に最も適したデータセットであると結論付けた。

A framework was developed to address limitations associated with existing techniques for analysing sequences. This work deals with the steps followed to select suitable datasets characterised by discrete irregular sequential patterns. To identify, select, explore and evaluate which datasets from various sources extracted from more than 400 research articles, an interquartile range method for outlier calculation and a qualitative Billauer's algorithm was adapted to provide periodical peak detection in such datasets. The developed framework was then tested using the most appropriate datasets. The research concluded that the financial market-daily currency exchange domain is the most suitable kind of data set for the evaluation of the designed deep learning framework, as it provides high levels of discrete irregular patterns.
翻訳日:2021-09-23 13:43:23 公開日:2021-09-21
# DatalogMTLにおけるクエリ評価 -- 無限クエリ結果の処理

Query Evaluation in DatalogMTL -- Taming Infinite Query Results ( http://arxiv.org/abs/2109.10691v1 )

ライセンス: Link先を確認
Luigi Bellomarini, Markus Nissl and Emanuel Sallinger(参考訳) 本稿では,DatalogMTLの有限表現について検討する。 まず,有限モデルを持つプログラムを導入し,DatalogMTLルールの実行を逐次フェーズに構造化するためのツールキットを提案する。 そして、最終的に一定となる無限のモデルを研究し、そのような表現を可能にするプログラムに十分な基準を導入する。 最終的に周期的な無限モデルを考えることにより、そのような表現がすべてのDatalogMTLFPプログラムを含むことを示す。 最後に,前述した表現をすべて組み込んだ有限表現可能なdatalogmtlプログラム上で推論を行うための新しいアルゴリズムを提案する。

In this paper, we investigate finite representations of DatalogMTL. First, we introduce programs that have finite models and propose a toolkit for structuring the execution of DatalogMTL rules into sequential phases. Then, we study infinite models that eventually become constant and introduce sufficient criteria for programs that allow for such representation. We proceed by considering infinite models that are eventually periodic and show that such a representation encompasses all DatalogMTLFP programs, a widely discussed fragment. Finally, we provide a novel algorithm for reasoning over finite representable DatalogMTL programs that incorporates all of the previously discussed representations.
翻訳日:2021-09-23 13:40:05 公開日:2021-09-21
# リアル超音波画像の超高速シミュレーション法

An Ultra-Fast Method for Simulation of Realistic Ultrasound Images ( http://arxiv.org/abs/2109.10353v1 )

ライセンス: Link先を確認
Mostafa Sharifzadeh, Habib Benali, Hassan Rivaz(参考訳) 畳み込みニューラルネットワーク(CNN)は、医療超音波コミュニティにおける様々な処理タスクへの関心が急速に高まっている。 しかし,CNNの性能はトレーニングデータの量と忠実度に大きく依存している。 したがって、臨床データが容易にアクセスできない医療分野では、データ不足はほとんど常に懸念される。 合成データの利用はこの課題に対処するための一般的なアプローチである。 しかし、フィールドiiのようなパッケージを使って多数のイメージをシミュレートすることは時間がかかり、シミュレーションされたイメージの分布は実際のイメージとは程遠い。 本稿では,フーリエ変換に基づく超高速超音波画像シミュレーション手法を提案する。 提案手法によって生成された画像を用いたデータ拡張は,dice類似度係数の点でフィールドiiを実質的に上回り,シミュレーションは(cpu上では)ほぼ36000倍高速である。

Convolutional neural networks (CNNs) have attracted a rapidly growing interest in a variety of different processing tasks in the medical ultrasound community. However, the performance of CNNs is highly reliant on both the amount and fidelity of the training data. Therefore, scarce data is almost always a concern, particularly in the medical field, where clinical data is not easily accessible. The utilization of synthetic data is a popular approach to address this challenge. However, but simulating a large number of images using packages such as Field II is time-consuming, and the distribution of simulated images is far from that of the real images. Herein, we introduce a novel ultra-fast ultrasound image simulation method based on the Fourier transform and evaluate its performance in a lesion segmentation task. We demonstrate that data augmentation using the images generated by the proposed method substantially outperforms Field II in terms of Dice similarity coefficient, while the simulation is almost 36000 times faster (both on CPU).
翻訳日:2021-09-23 13:39:14 公開日:2021-09-21
# 限られたデータを持つ組織の学習支援

Assisted Learning for Organizations with Limited Data ( http://arxiv.org/abs/2109.09307v2 )

ライセンス: Link先を確認
Cheng Chen, Jiaying Zhou, Jie Ding, Yi Zhou(参考訳) 組織レベルの学習者に対して,限定的かつ不均衡なデータを用いて学習性能の向上を支援する学習フレームワークを開発した。 特に、組織レベルの学習者は、通常は十分な計算リソースを持っているが、厳格なコラボレーションポリシーと情報プライバシの対象となる。 限られた不均衡なデータはしばしば偏りのある推論と最適でない意思決定を引き起こす。 私たちの学習フレームワークでは、組織学習者がサービス提供者から支援サービスを購入し、いくつかの支援ラウンドでモデルパフォーマンスの向上を目標としています。 深層学習支援と強化学習支援のための効果的な確率的学習アルゴリズムを開発した。 勾配やモデルを頻繁に送信する必要のある既存の分散アルゴリズムとは異なり、このフレームワークでは、学習者は時々サービスプロバイダと情報を共有するだけで、すべてのデータが集中しているかのように、oracleに近いモデルを達成できます。

We develop an assisted learning framework for assisting organization-level learners to improve their learning performance with limited and imbalanced data. In particular, learners at the organization level usually have sufficient computation resource, but are subject to stringent collaboration policy and information privacy. Their limited imbalanced data often cause biased inference and sub-optimal decision-making. In our assisted learning framework, an organizational learner purchases assistance service from a service provider and aims to enhance its model performance within a few assistance rounds. We develop effective stochastic training algorithms for assisted deep learning and assisted reinforcement learning. Different from existing distributed algorithms that need to frequently transmit gradients or models, our framework allows the learner to only occasionally share information with the service provider, and still achieve a near-oracle model as if all the data were centralized.
翻訳日:2021-09-23 10:36:20 公開日:2021-09-21
# (参考訳) JEM++:JEMのトレーニング技術の改善 [全文訳有]

JEM++: Improved Techniques for Training JEM ( http://arxiv.org/abs/2109.09032v2 )

ライセンス: CC BY 4.0
Xiulong Yang, Shihao Ji(参考訳) JEM(Joint Energy-based Model)は、最近のCNN分類器の強力な識別能力を維持しつつ、GANベースのアプローチの質に匹敵するサンプルを生成するハイブリッドモデルである。 本稿では,JEMの精度,トレーニング安定性,スピードを全面的に向上させるために,新しいトレーニング手順とアーキテクチャ機能を提案する。 1) 前段からサンプルに近いサンプルを生成するための近位SGLDを提案し,安定性を向上した。 2) ebmの近似最大度学習を多段階微分ゲームとして扱い, バックプロパゲーション中に冗長な計算を省くようyopoフレームワークを拡張し, トレーニングを実質的に高速化する。 3) ランダムノイズからSGLD鎖を初期化する代わりに, トレーニングデータから推定した分布からサンプルを抽出する情報初期化を導入する。 4) この情報的初期化により、JEMのバッチ正規化が可能となり、ハイブリッドモデリングのための最新のCNNアーキテクチャのパワーがさらに解放される。 コード: https://github.com/s ndnyang/jempp

Joint Energy-based Model (JEM) is a recently proposed hybrid model that retains strong discriminative power of modern CNN classifiers, while generating samples rivaling the quality of GAN-based approaches. In this paper, we propose a variety of new training procedures and architecture features to improve JEM's accuracy, training stability, and speed altogether. 1) We propose a proximal SGLD to generate samples in the proximity of samples from the previous step, which improves the stability. 2) We further treat the approximate maximum likelihood learning of EBM as a multi-step differential game, and extend the YOPO framework to cut out redundant calculations during backpropagation, which accelerates the training substantially. 3) Rather than initializing SGLD chain from random noise, we introduce a new informative initialization that samples from a distribution estimated from training data. 4) This informative initialization allows us to enable batch normalization in JEM, which further releases the power of modern CNN architectures for hybrid modeling. Code: https://github.com/s ndnyang/JEMPP
翻訳日:2021-09-23 07:05:20 公開日:2021-09-21
# (参考訳) 畳み込みニューラルネットワークを用いた音声区間検索 [全文訳有]

Audio Interval Retrieval using Convolutional Neural Networks ( http://arxiv.org/abs/2109.09906v1 )

ライセンス: CC BY 4.0
Ievgeniia Kuzminykh, Dan Shevchuk, Stavros Shiaeles, Bogdan Ghita(参考訳) 現代のストリーミングサービスは、そのビジュアルコンテンツやオーディオコンテンツに基づいて、ビデオにラベルを付けている。 これは典型的には、キーワードやビデオ記述による検索に自然言語を使用することで、AIやMLなどのテクノロジの使用を拡大する。 先行研究は、人間の発話の場合、音声からテキストへのソリューションを多数提供してきたが、本稿は、自然言語クエリに基づいて音声イベントを検索し、その有効性と正確性を評価することを目的としている。 本研究では,YamNet,AlexNet,ResN et-50の事前学習モデルに着目し,それぞれのメルスペクトログラムを用いて音声サンプルを予め定義された多数のクラスに自動分類する。 事前に定義されたクラスは、ビデオフラグメント内のアクションに関連する音を表現できる。 自然言語クエリに基づく音声分類と区間検索の2つの異なる問題に対して,モデルの性能を評価するために2つの試験を行った。 結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。 YamNetは92.7%の精度と68.75%の精度で単一の固定サイズのオーディオサンプルを分類することができたが、間隔検索の平均精度は71.62%、精度は41.95%であった。 本手法は,ストリーミングサービス用の自動イベントマーキングアーキテクチャに組み込むことができる。

Modern streaming services are increasingly labeling videos based on their visual or audio content. This typically augments the use of technologies such as AI and ML by allowing to use natural speech for searching by keywords and video descriptions. Prior research has successfully provided a number of solutions for speech to text, in the case of a human speech, but this article aims to investigate possible solutions to retrieve sound events based on a natural language query, and estimate how effective and accurate they are. In this study, we specifically focus on the YamNet, AlexNet, and ResNet-50 pre-trained models to automatically classify audio samples using their respective melspectrograms into a number of predefined classes. The predefined classes can represent sounds associated with actions within a video fragment. Two tests are conducted to evaluate the performance of the models on two separate problems: audio classification and intervals retrieval based on a natural language query. Results show that the benchmarked models are comparable in terms of performance, with YamNet slightly outperforming the other two models. YamNet was able to classify single fixed-size audio samples with 92.7% accuracy and 68.75% precision while its average accuracy on intervals retrieval was 71.62% and precision was 41.95%. The investigated method may be embedded into an automated event marking architecture for streaming services.
翻訳日:2021-09-23 00:48:05 公開日:2021-09-21
# (参考訳) ロバストチューブMPCの模擬による効率的な指導政策探索 [全文訳有]

Demonstration-Effici ent Guided Policy Search via Imitation of Robust Tube MPC ( http://arxiv.org/abs/2109.09910v1 )

ライセンス: CC BY 4.0
Andrea Tagliabue, Dong-Ki Kim, Michael Everett, Jonathan P. How(参考訳) 本稿では,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する実演効率の戦略を提案する。 mpcのロバストチューブ変種(rtmpc)を生成し、そのチューブから特性を活用することで、ilで典型的に発生する分布シフトを補償し、高いデモンストレーション効率を実現するデータ拡張法を提案する。 本手法は,シミュレーションやラボ制御環境におけるロボットなど,名目ドメインで収集された1つのデモから,境界付きモデルエラー/摂動領域へのゼロショット転送の可能性を開く。 四極子に対する軌道追跡MPCを用いて行った数値的および実験的評価により,本手法は,訓練中にみられない摂動に対する実演効率と頑健性の観点から,DAggerやDomain RandomizationなどのILで一般的に採用される戦略よりも優れていた。

We propose a demonstration-effici ent strategy to compress a computationally expensive Model Predictive Controller (MPC) into a more computationally efficient representation based on a deep neural network and Imitation Learning (IL). By generating a Robust Tube variant (RTMPC) of the MPC and leveraging properties from the tube, we introduce a data augmentation method that enables high demonstration-effici ency, being capable to compensate the distribution shifts typically encountered in IL. Our approach opens the possibility of zero-shot transfer from a single demonstration collected in a nominal domain, such as a simulation or a robot in a lab/controlled environment, to a domain with bounded model errors/perturbations . Numerical and experimental evaluations performed on a trajectory tracking MPC for a quadrotor show that our method outperforms strategies commonly employed in IL, such as DAgger and Domain Randomization, in terms of demonstration-effici ency and robustness to perturbations unseen during training.
翻訳日:2021-09-23 00:38:48 公開日:2021-09-21
# (参考訳) トランスフォーマーを用いたビデオ言語事前学習 [全文訳有]

Survey: Transformer based Video-Language Pre-training ( http://arxiv.org/abs/2109.09920v1 )

ライセンス: CC BY 4.0
Ludan Ruan and Qin Jin(参考訳) 自然言語タスクやコンピュータビジョンタスクに対するトランスフォーマーベースの事前学習手法の成功に触発されて、研究者はビデオ処理にトランスフォーマーを適用し始めた。 本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法の概要を概観することを目的とする。 まず,注意機構や位置符号化などの背景知識として,トランストラクチャを簡単に紹介する。 次に,ビデオ言語処理の事前学習と微調整の典型的なパラダイムについて,プロキシタスク,ダウンストリームタスク,一般的なビデオデータセットなどの観点から説明する。 次に、トランスモデルをシングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。 最後に,ビデオランゲージ事前学習における現在の課題と今後の研究方向性を分析し,議論する。

Inspired by the success of transformer-based pre-training methods on natural language tasks and further computer vision tasks, researchers have begun to apply transformer to video processing. This survey aims to give a comprehensive overview on transformer-based pre-training methods for Video-Language learning. We first briefly introduce the transformer tructure as the background knowledge, including attention mechanism, position encoding etc. We then describe the typical paradigm of pre-training & fine-tuning on Video-Language processing in terms of proxy tasks, downstream tasks and commonly used video datasets. Next, we categorize transformer models into Single-Stream and Multi-Stream structures, highlight their innovations and compare their performances. Finally, we analyze and discuss the current challenges and possible future research directions for Video-Language pre-training.
翻訳日:2021-09-23 00:20:05 公開日:2021-09-21
# (参考訳) AutoPhoto:強化学習を利用した美的写真キャプチャ [全文訳有]

AutoPhoto: Aesthetic Photo Capture using Reinforcement Learning ( http://arxiv.org/abs/2109.09923v1 )

ライセンス: CC BY 4.0
Hadi AlZayer, Hubert Lin, Kavita Bala(参考訳) うまく構成された写真を撮影するプロセスは困難で、マスターするには何年もの経験が必要だ。 本研究では,シーン内の局所領域をナビゲートして美容写真を自動的にキャプチャする,自律型エージェントのための新しいパイプラインを提案する。 3分の1の規則のようなヒューリスティックスよりも古典的な最適化の代わりに、写真の品質を評価するためにデータ駆動の美学推定器を採用する。 強化学習フレームワークは、学習した美学メトリクスに関してモデルを最適化するために使用されます。 我々は,室内シーンを用いたシミュレーションでモデルを訓練し,地上ロボットによるシミュレーションと実環境の両方で美的写真を撮影できることを実証した。 我々の知る限り、これは学習された審美的推定器に関して、環境を自動で探索して美的写真をキャプチャする最初のシステムである。

The process of capturing a well-composed photo is difficult and it takes years of experience to master. We propose a novel pipeline for an autonomous agent to automatically capture an aesthetic photograph by navigating within a local region in a scene. Instead of classical optimization over heuristics such as the rule-of-thirds, we adopt a data-driven aesthetics estimator to assess photo quality. A reinforcement learning framework is used to optimize the model with respect to the learned aesthetics metric. We train our model in simulation with indoor scenes, and we demonstrate that our system can capture aesthetic photos in both simulation and real world environments on a ground robot. To our knowledge, this is the first system that can automatically explore an environment to capture an aesthetic photo with respect to a learned aesthetic estimator.
翻訳日:2021-09-22 23:46:11 公開日:2021-09-21
# (参考訳) 雑音および部分的3次元点雲における反射対称性のロバスト推定 [全文訳有]

Robust Estimation of Reflection Symmetry in Noisy and Partial 3D Point Clouds ( http://arxiv.org/abs/2109.09927v1 )

ライセンス: CC BY 4.0
Rajendra Nagar(参考訳) 3次元点雲で表される物体の反射対称性面の検出は, 圧縮, 物体検出, ロボット把握, 3次元表面再構成などの様々な応用により, 3次元コンピュータビジョンと幾何学処理の基本的な問題である。 クリーンな3Dポイントクラウドに対して、この問題を解決するための効率的なアプローチがいくつか存在する。 しかし, 3dスキャナを用いて物体を走査しながら, 咬合による異常部や欠片部の存在下では解決が困難になる。 既存の方法は、主に投票に基づくテクニックによってこれらの課題を克服しようとするが、難しい設定では失敗する。 本研究では,外乱や欠落部分に対して頑健な反射対称性平面に対する統計的推定器を提案する。 最適推定器をグローバルな解に迅速に収束する2次元球面上の最適化問題として求める問題を提起する。 さらに,点近傍から構築した測地線距離行列のスペクトル特性を用いて,3次元反射対称性に不変な3次元点記述子を提案する。 これにより、最適対称性平面と反射対称点間の対応を見つけるというチキンとエッグの問題を解くのに役立つ。 提案手法が,ベンチマークデータセットにおける最先端のパフォーマンスを実現することを示す。

Detecting the reflection symmetry plane of an object represented by a 3D point cloud is a fundamental problem in 3D computer vision and geometry processing due to its various applications such as compression, object detection, robotic grasping, 3D surface reconstruction, etc. There exist several efficient approaches for solving this problem for clean 3D point clouds. However, this problem becomes difficult to solve in the presence of outliers and missing parts due to occlusions while scanning the objects through 3D scanners. The existing methods try to overcome these challenges mostly by voting-based techniques but fail in challenging settings. In this work, we propose a statistical estimator for the plane of reflection symmetry that is robust to outliers and missing parts. We pose the problem of finding the optimal estimator as an optimization problem on a 2-sphere that quickly converges to the global solution. We further propose a 3D point descriptor that is invariant to 3D reflection symmetry using the spectral properties of the geodesic distance matrix constructed from the neighbors of a point. This helps us in decoupling the chicken-and-egg problem of finding optimal symmetry plane and correspondences between the reflective symmetric points. We show that the proposed approach achieves the state-of-the-art performance on the benchmarks dataset.
翻訳日:2021-09-22 23:26:33 公開日:2021-09-21
# (参考訳) 多重ウェーブレットの平滑係数を用いた信号分類 [全文訳有]

Signal Classification using Smooth Coefficients of Multiple wavelets ( http://arxiv.org/abs/2109.09988v1 )

ライセンス: CC BY 4.0
Paul Grant and Md Zahidul Islam(参考訳) 時系列信号の分類は重要な構造となり、多くの実用的な応用がなされている。 既存の分類器では信号を正確に分類することができるが、属性の数を減らすと精度が低下する可能性がある。 次元性の低下に伴うデータ変換は、データ解析の品質を改善し、分類に必要な時間を短縮し、モデルを単純化する。 本稿では,データ変換に適したウェーブレットを選択し,これらの変換から出力を合成してデータセットを構築し,アンサンブル分類器を適用するアプローチを提案する。 異なるデータセット、異なる分類器でこれを実証し、異なる評価方法を使用する。 提案手法の有効性を,生信号データや単一ウェーブレット変換を用いた手法と比較して実証した。

Classification of time series signals has become an important construct and has many practical applications. With existing classifiers we may be able to accurately classify signals, however that accuracy may decline if using a reduced number of attributes. Transforming the data then undertaking reduction in dimensionality may improve the quality of the data analysis, decrease time required for classification and simplify models. We propose an approach, which chooses suitable wavelets to transform the data, then combines the output from these transforms to construct a dataset to then apply ensemble classifiers to. We demonstrate this on different data sets, across different classifiers and use differing evaluation methods. Our experimental results demonstrate the effectiveness of the proposed technique, compared to the approaches that use either raw signal data or a single wavelet transform.
翻訳日:2021-09-22 23:03:06 公開日:2021-09-21
# (参考訳) octスキャンによる後眼節の自動分割と抽出 [全文訳有]

Automated segmentation and extraction of posterior eye segment using OCT scans ( http://arxiv.org/abs/2109.10000v1 )

ライセンス: CC BY 4.0
Bilal Hassan and Taimur Hassan and Ramsha Ahmed and Shiyin Qin and Naoufel Werghi(参考訳) 本稿では,マルチベンダ光コヒーレンストモグラフィ(oct)スキャンを用いて,硝子体,網膜,脈絡膜,硬化部を含むヒト眼の後眼部部分の分節抽出を自動化する手法を提案する。 提案手法は2段階で動作する。 まず、適応しきい値法を適用して網膜色素上皮層(RPE)を抽出し、網膜-脈絡膜接合を同定する。 次に、構造テンソルガイド法を用いて、内部制限膜(ILM)と脈絡膜(CS)層を抽出し、候補OCTスキャンにおける硝子体-網膜および脈絡膜接合部の位置を特定する。 さらに、これらの3つの接合境界を利用して、健康眼と疾患眼のOCTスキャンの両方に効果的に後眼区画化を行う。 提案手法は1000 OCTスキャンで評価され, 平均結合点(IoU)とDice類似度係数(DSC)のスコア(0.874, 0.930)が得られた。

This paper proposes an automated method for the segmentation and extraction of the posterior segment of the human eye, including the vitreous, retina, choroid, and sclera compartments, using multi-vendor optical coherence tomography (OCT) scans. The proposed method works in two phases. First extracts the retinal pigment epithelium (RPE) layer by applying the adaptive thresholding technique to identify the retina-choroid junction. Then, it exploits the structure tensor guided approach to extract the inner limiting membrane (ILM) and the choroidal stroma (CS) layers, locating the vitreous-retina and choroid-sclera junctions in the candidate OCT scan. Furthermore, these three junction boundaries are utilized to conduct posterior eye compartmentalization effectively for both healthy and disease eye OCT scans. The proposed framework is evaluated over 1000 OCT scans, where it obtained the mean intersection over union (IoU) and mean Dice similarity coefficient (DSC) scores of 0.874 and 0.930, respectively.
翻訳日:2021-09-22 22:53:14 公開日:2021-09-21
# (参考訳) オフライン学習:生物・人工強化学習における記憶再生 [全文訳有]

Learning offline: memory replay in biological and artificial reinforcement learning ( http://arxiv.org/abs/2109.10034v1 )

ライセンス: CC BY-SA 4.0
Emma L. Roscow, Raymond Chua, Rui Ponte Costa, Matt W. Jones, and Nathan Lepora(参考訳) 報酬を最大化するための環境での学習は、脳の重要な機能のひとつです。 このプロセスは強化学習の枠組みの中で概念化され、意思決定を最適化する方法として機械学習や人工知能(AI)でも注目されている。 生物と機械の強化学習の共通点は、リプレイと呼ばれる経験済みのエピソードの再活性化である。 リプレイは生物学的ニューラルネットワークにおけるメモリ統合にとって重要であり、ディープニューラルネットワークにおける学習の安定化の鍵である。 本稿では,神経科学とai分野におけるリプレイの機能的役割に関する最近の研究を概観する。 相補的な進歩は、リプレイが一般化や継続的な学習を含む学習プロセスをどのようにサポートするかを示し、生物学と人工知能の学習と記憶を理解するために2つの分野に知識を移す機会を与える。

Learning to act in an environment to maximise rewards is among the brain's key functions. This process has often been conceptualised within the framework of reinforcement learning, which has also gained prominence in machine learning and artificial intelligence (AI) as a way to optimise decision-making. A common aspect of both biological and machine reinforcement learning is the reactivation of previously experienced episodes, referred to as replay. Replay is important for memory consolidation in biological neural networks, and is key to stabilising learning in deep neural networks. Here, we review recent developments concerning the functional roles of replay in the fields of neuroscience and AI. Complementary progress suggests how replay might support learning processes, including generalisation and continual learning, affording opportunities to transfer knowledge across the two fields to advance the understanding of biological and artificial learning and memory.
翻訳日:2021-09-22 22:35:51 公開日:2021-09-21
# (参考訳) VPN:ロバストコンテンツアトリビューションのためのビデオプロバンスネットワーク [全文訳有]

VPN: Video Provenance Network for Robust Content Attribution ( http://arxiv.org/abs/2109.10038v1 )

ライセンス: CC BY 4.0
Alexander Black, Tu Bui, Simon Jenni, Vishy Swaminathan, John Collomosse(参考訳) VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。 プラットフォームやユーザーは、しばしば動画を異なる品質、コーデック、サイズ、形などに変えたり、オンラインで再配布されているテキストや絵文字などのコンテンツを少し編集したりする。 完全長の動画クエリや切り離されたビデオクエリを用いて,このようなビデオにマッチする堅牢な検索埋め込みを学習する。 一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。 インバートインデックスを用いてビデオの時間的チャンクをレイトフュージョンでマッチングし、視覚的特徴と音声的特徴を組み合わせる。 どちらの場合も、特徴は、オリジナルのビデオクリップと強化ビデオクリップのデータセットでコントラスト学習を使用してトレーニングされたディープニューラルネットワークを介して抽出される。 10万本のビデオのコーパスに対して高精度なリコールを示す。

We present VPN - a content attribution method for recovering provenance information from videos shared online. Platforms, and users, often transform video into different quality, codecs, sizes, shapes, etc. or slightly edit its content such as adding text or emoji, as they are redistributed online. We learn a robust search embedding for matching such video, invariant to these transformations, using full-length or truncated video queries. Once matched against a trusted database of video clips, associated information on the provenance of the clip is presented to the user. We use an inverted index to match temporal chunks of video using late-fusion to combine both visual and audio features. In both cases, features are extracted via a deep neural network trained using contrastive learning on a dataset of original and augmented video clips. We demonstrate high accuracy recall over a corpus of 100,000 videos.
翻訳日:2021-09-22 22:05:46 公開日:2021-09-21
# (参考訳) 古いもの、新しいもの:変圧器モデルを用いた文法ベースのCCG解析 [全文訳有]

Something Old, Something New: Grammar-based CCG Parsing with Transformer Models ( http://arxiv.org/abs/2109.10044v1 )

ライセンス: CC BY 4.0
Stephen Clark(参考訳) 本稿では, Combinatory Categorial Grammar (CCG) における解析問題について述べる。トランスフォーマーに基づくニューラルモデルと記号CCG文法の組み合わせが,既存のアプローチよりも大幅に向上することを示す。 報告書はまた、20年間にわたる研究プログラムを文書化し、NLP法がこの期間にどのように進化してきたかを示した。 CCG解析のためのニューラルモデルによって提供されるステージング精度の改善は、NLPで一般的に見られる改善の反映と見なすことができる。 このレポートはccgとccg構文解析の紹介を最小限にし、関連する文献への多くのポインタを提供している。 その後、CCGスーパータギング問題と、Transformerベースのモデルを大きな効果でスーパータギングに適用するTian et al. (2020)の最近の研究について説明する。 私は、既存のCCGパーサのフロントエンドとして機能するCCGマルチタガーを開発するために、この既存のモデルを使用します。 この新しいマルチタグを使用すると、パース精度が大幅に向上する。 次に、解析文献からトランスフォーマーベースのモデルを文法ベースのCGパーサと組み合わせて、ラベル付き依存に対して93%のFスコアでCCGbank構文解析タスクの最先端を50%以上の完全文精度で設定する方法を示す。

This report describes the parsing problem for Combinatory Categorial Grammar (CCG), showing how a combination of Transformer-based neural models and a symbolic CCG grammar can lead to substantial gains over existing approaches. The report also documents a 20-year research program, showing how NLP methods have evolved over this time. The staggering accuracy improvements provided by neural models for CCG parsing can be seen as a reflection of the improvements seen in NLP more generally. The report provides a minimal introduction to CCG and CCG parsing, with many pointers to the relevant literature. It then describes the CCG supertagging problem, and some recent work from Tian et al. (2020) which applies Transformer-based models to supertagging with great effect. I use this existing model to develop a CCG multitagger, which can serve as a front-end to an existing CCG parser. Simply using this new multitagger provides substantial gains in parsing accuracy. I then show how a Transformer-based model from the parsing literature can be combined with the grammar-based CCG parser, setting a new state-of-the-art for the CCGbank parsing task of almost 93% F-score for labelled dependencies, with complete sentence accuracies of over 50%.
翻訳日:2021-09-22 21:49:11 公開日:2021-09-21
# (参考訳) 一人当たりのポーズ推定:調査 [全文訳有]

Single Person Pose Estimation: A Survey ( http://arxiv.org/abs/2109.10056v1 )

ライセンス: CC BY-SA 4.0
Feng Zhang, Xiatian Zhu, and Chen Wang(参考訳) 制約のない画像やビデオにおける人間のポーズ推定は、基本的なコンピュータビジョンタスクである。 この技術の進化的経路を説明するため,本研究では,構造化分類学において代表的人間のポーズ法を要約し,深層学習モデルと一人称画像設定に焦点をあてた。 具体的には、データ強化、モデルアーキテクチャとバックボーン、監督表現、後処理、標準データセット、評価指標を含む、典型的な人間のポーズ推定パイプラインのすべてのコンポーネントを調べ、調査する。 今後の方向性を考察するため,人間のポーズ推定の鍵となる未解決問題と潜在的な傾向について論じる。

Human pose estimation in unconstrained images and videos is a fundamental computer vision task. To illustrate the evolutionary path in technique, in this survey we summarize representative human pose methods in a structured taxonomy, with a particular focus on deep learning models and single-person image setting. Specifically, we examine and survey all the components of a typical human pose estimation pipeline, including data augmentation, model architecture and backbone, supervision representation, post-processing, standard datasets, evaluation metrics. To envisage the future directions, we finally discuss the key unsolved problems and potential trends for human pose estimation.
翻訳日:2021-09-22 21:09:29 公開日:2021-09-21
# (参考訳) スケールアウェア直接モノクロオドメトリー [全文訳有]

Scale-aware direct monocular odometry ( http://arxiv.org/abs/2109.10077v1 )

ライセンス: CC BY 4.0
Carlos Campos and Juan D. Tard\'os(参考訳) 本稿では,深部ニューラルネットワークからの深度予測に基づく直接単分子オードメトリーの枠組みを提案する。 深度情報を部分的にのみ活用する既存の手法とは対照的に、多視点深度情報を組み込むことのできる新しい深度予測残差を定式化する。 さらに,不整合な深さ推定を考慮せずに,コスト関数のトラッピング化を提案する。 光度測定および深度予測測定は、スケールドリフトを蓄積しないスケール対応単分子系につながる密結合最適化に統合される。 キッティオドメトリーデータセット上で評価する提案の有効性を実証し,最新のモノクロおよびステレオスラムシステムとの比較を行った。 実験の結果,提案手法は従来の単分子SLAMよりも5~9倍精度が高く,ステレオシステムに近い精度であることがわかった。

We present a framework for direct monocular odometry based on depth prediction from a deep neural network. In contrast with existing methods where depth information is only partially exploited, we formulate a novel depth prediction residual which allows us to incorporate multi-view depth information. In addition, we propose to use a truncated robust cost function which prevents considering inconsistent depth estimations. The photometric and depth-prediction measurements are integrated in a tightly-coupled optimization leading to a scale-aware monocular system which does not accumulate scale drift. We demonstrate the validity of our proposal evaluating it on the KITTI odometry dataset and comparing it with state-of-the-art monocular and stereo SLAM systems. Experiments show that our proposal largely outperforms classic monocular SLAM, being 5 to 9 times more precise, with an accuracy which is closer to that of stereo systems.
翻訳日:2021-09-22 20:49:19 公開日:2021-09-21
# (参考訳) CNNにおける解釈可能な概念群学習 [全文訳有]

Learning Interpretable Concept Groups in CNNs ( http://arxiv.org/abs/2109.10078v1 )

ライセンス: CC BY 4.0
Saurabh Varshneya (1), Antoine Ledent (1), Robert A. Vandermeulen (2), Yunwen Lei (3), Matthias Enders (4), Damian Borth (5) and Marius Kloft (1) ((1) Technical University of Kaiserslautern, (2) Technical University of Berlin, (3) University of Birmingham, (4) NPZ Innovation GmbH, (5) University of St.Gallen, Switzerland)(参考訳) 本稿では,各層におけるフィルタを概念群に分割することで,解釈可能なCNNフィルタの学習を促進する新しい学習手法である概念群学習(Concept Group Learning, CGL)を提案する。 我々は、同じグループのフィルタを特定の層に対して同じ画像領域でアクティブにさせる新しい正規化戦略によってこれを達成する。 さらに、いくつかの概念群が他の層よりも大きな重要性を持つように、各層における概念群の疎重み付けを促すために正規化子を用いる。 標準解釈可能性評価手法を用いてcglのモデル解釈可能性を定量的に評価し, ほとんどの場合, 本手法が解釈可能性スコアを増加させることを確認した。 CGLを用いて学習したフィルタの下で最もアクティブな画像領域と、CGLで学習したフィルタを比較し、CGLアクティベーション領域が意味論的に関連性のある特徴に強く集中していることを見出した。

We propose a novel training methodology -- Concept Group Learning (CGL) -- that encourages training of interpretable CNN filters by partitioning filters in each layer into concept groups, each of which is trained to learn a single visual concept. We achieve this through a novel regularization strategy that forces filters in the same group to be active in similar image regions for a given layer. We additionally use a regularizer to encourage a sparse weighting of the concept groups in each layer so that a few concept groups can have greater importance than others. We quantitatively evaluate CGL's model interpretability using standard interpretability evaluation techniques and find that our method increases interpretability scores in most cases. Qualitatively we compare the image regions that are most active under filters learned using CGL versus filters learned without CGL and find that CGL activation regions more strongly concentrate around semantically relevant features.
翻訳日:2021-09-22 20:35:31 公開日:2021-09-21
# (参考訳) ESGレーティング予測のための不均一アンサンブル [全文訳有]

Heterogeneous Ensemble for ESG Ratings Prediction ( http://arxiv.org/abs/2109.10085v1 )

ライセンス: CC BY 4.0
Tim Krappel, Alex Bogun, Damian Borth(参考訳) 過去数年間、気候変動から人権まで、投資決定の重要性が高まってきた。 そのため、これらの課題を取り入れたい投資家(資産運用者、資産所有者)は、これらのトピックの扱い方に基づいて企業を評価するようになった。 この評価のために、投資家は環境、社会、ガバナンス(ESG)の側面に沿って評価を行う専門格付け機関に依存している。 このような評価は、持続可能性を支持する投資決定を可能にする。 しかし、評価機関は、すべての会社が提供するものではなく、サステナビリティレポートの主観評価に基づく分析を行っている。 さらに、人間労働が関与しているため、評価機関は現在、タイムリーな方法でカバー範囲を拡大する課題に直面している。 これらの課題を緩和し、持続可能性を支えるという全体的な目標に貢献するために、基礎データを用いてESG評価を予測する異種アンサンブルモデルを提案する。 このモデルは、フィードフォワードニューラルネットワーク、CatBoostおよびXGBoostアンサンブルメンバーに基づいている。 基本データの公開を考えると、提案手法はコスト効率が高くスケーラブルな初期ESGレーティングの作成を可能にする(持続可能性報告のない企業も)。 このアプローチを用いることで,評価r2の変動の54%を基本データを用いて説明し,この分野の先行研究を上回ることができる。

Over the past years, topics ranging from climate change to human rights have seen increasing importance for investment decisions. Hence, investors (asset managers and asset owners) who wanted to incorporate these issues started to assess companies based on how they handle such topics. For this assessment, investors rely on specialized rating agencies that issue ratings along the environmental, social and governance (ESG) dimensions. Such ratings allow them to make investment decisions in favor of sustainability. However, rating agencies base their analysis on subjective assessment of sustainability reports, not provided by every company. Furthermore, due to human labor involved, rating agencies are currently facing the challenge to scale up the coverage in a timely manner. In order to alleviate these challenges and contribute to the overall goal of supporting sustainability, we propose a heterogeneous ensemble model to predict ESG ratings using fundamental data. This model is based on feedforward neural network, CatBoost and XGBoost ensemble members. Given the public availability of fundamental data, the proposed method would allow cost-efficient and scalable creation of initial ESG ratings (also for companies without sustainability reporting). Using our approach we are able to explain 54% of the variation in ratings R2 using fundamental data and outperform prior work in this area.
翻訳日:2021-09-22 20:23:09 公開日:2021-09-21
# (参考訳) てんかん不確実性モデリングのためのベイズ信頼度校正 [全文訳有]

Bayesian Confidence Calibration for Epistemic Uncertainty Modelling ( http://arxiv.org/abs/2109.10092v1 )

ライセンス: CC BY 4.0
Fabian K\"uppers, Jan Kronenberger, Jonas Schneider, Anselm Haselhoff(参考訳) 現代のニューラルネットワークは、信頼度校正の点で誤校正されていること、すなわち、彼らの予測された信頼度スコアは、観測された精度や精度を反映していない。 最近の研究は、分類のためのポストホック信頼度校正法や、この問題に対処するためのオブジェクト検出法を導入している。 特に安全上重要な応用においては,モデルの信頼性の高い自己評価を得ることが重要である。 しかし、例えば知識ベースが不足しているなど、キャリブレーション方法自体が不確かである場合はどうだろう? ベイズ信頼度校正(bayesian confidence calibration) - 校正方法の不確実性とともに校正信頼度推定を得るための枠組み。 一般に、ベイズニューラルネットワーク(bnn)は、ある予測に関するネットワークの不確実性を示すために用いられる。 bnnは推論の重みの代わりに分布を使用するニューラルネットワークとして解釈される。 我々はこの分布を信頼性校正に利用するという考えを移す。 この目的のために、確率的変動推定を用いて、単一のキャリブレーション推定ではなく確率分布を出力するキャリブレーションマッピングを構築する。 このアプローチを用いて,物体検出校正のための最先端校正性能を実現する。 最後に,この追加的な不確かさを共変量シフト検出の十分な基準として使用できることを示す。 すべてのコードはオープンソースであり、https://github.com/E FS-OpenSource/calibr ation-frameworkで入手できる。

Modern neural networks have found to be miscalibrated in terms of confidence calibration, i.e., their predicted confidence scores do not reflect the observed accuracy or precision. Recent work has introduced methods for post-hoc confidence calibration for classification as well as for object detection to address this issue. Especially in safety critical applications, it is crucial to obtain a reliable self-assessment of a model. But what if the calibration method itself is uncertain, e.g., due to an insufficient knowledge base? We introduce Bayesian confidence calibration - a framework to obtain calibrated confidence estimates in conjunction with an uncertainty of the calibration method. Commonly, Bayesian neural networks (BNN) are used to indicate a network's uncertainty about a certain prediction. BNNs are interpreted as neural networks that use distributions instead of weights for inference. We transfer this idea of using distributions to confidence calibration. For this purpose, we use stochastic variational inference to build a calibration mapping that outputs a probability distribution rather than a single calibrated estimate. Using this approach, we achieve state-of-the-art calibration performance for object detection calibration. Finally, we show that this additional type of uncertainty can be used as a sufficient criterion for covariate shift detection. All code is open source and available at https://github.com/E FS-OpenSource/calibr ation-framework.
翻訳日:2021-09-22 20:07:17 公開日:2021-09-21
# (参考訳) InvBERT:文学作品の派生テキストフォーマットに用いる文脈的埋め込みからのテキスト再構成 [全文訳有]

InvBERT: Text Reconstruction from Contextualized Embeddings used for Derived Text Formats of Literary Works ( http://arxiv.org/abs/2109.10104v1 )

ライセンス: CC BY 4.0
Johannes H\"ohmann, Achim Rettinger, and Kai Kugler(参考訳) Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。 このような自動化アプローチは、手動の検査だけでは実現できない大規模なコーパスの定量的研究を可能にする。 しかし、著作権制限のため、関連するデジタル化文学作品の入手は限られている。 ソリューションとして派生テキストフォーマット(DTF)が提案されている。 ここで、テキスト素材は著作権クリティカルな特徴が取り除かれるように変換されるが、特定の分析方法の使用は引き続き可能である。 変換器エンコーダ(BERTなど)が生成する文脈的単語埋め込みは、様々な分析タスクにおける最先端のパフォーマンスを許容し、一見したところ、元のテキストを開示しないため、DTFの候補となる。 しかし,本論文では,ある条件下では,原著作権文書の再構築が実現可能となり,文脈化語表現の形での出版が安全でないことを示す。 bertを逆転させる試みでは,著作権法に違反するのに十分な復元精度でデコーダをトレーニングするためのデータを生成することができるため,エンコーダの一部をコンテキスト化埋め込みと共に公開することが重要であることを示唆する。

Digital Humanities and Computational Literary Studies apply text mining methods to investigate literature. Such automated approaches enable quantitative studies on large corpora which would not be feasible by manual inspection alone. However, due to copyright restrictions, the availability of relevant digitized literary works is limited. Derived Text Formats (DTFs) have been proposed as a solution. Here, textual materials are transformed in such a way that copyright-critical features are removed, but that the use of certain analytical methods remains possible. Contextualized word embeddings produced by transformer-encoders (like BERT) are promising candidates for DTFs because they allow for state-of-the-art performance on various analytical tasks and, at first sight, do not disclose the original text. However, in this paper we demonstrate that under certain conditions the reconstruction of the original copyrighted text becomes feasible and its publication in the form of contextualized word representations is not safe. Our attempts to invert BERT suggest, that publishing parts of the encoder together with the contextualized embeddings is critical, since it allows to generate data to train a decoder with a reconstruction accuracy sufficient to violate copyright laws.
翻訳日:2021-09-22 19:50:28 公開日:2021-09-21
# (参考訳) 意味的ステレオマッチング/意味的深さ推定に関する調査 [全文訳有]

Survey on Semantic Stereo Matching / Semantic Depth Estimation ( http://arxiv.org/abs/2109.10123v1 )

ライセンス: CC BY 4.0
Viny Saajan Victor and Peter Neigel(参考訳) ステレオマッチングは、その頑丈さと速度によりステレオ画像から深度を推定する手法として広く用いられている。 自動運転、ロボットナビゲーション、3dリコンストラクション、その他多くの分野に応用されていることから、研究の主要な話題の1つとなっている。 非テクスチャ, 隠蔽, 反射領域における画素対応の発見は, ステレオマッチングにおける大きな課題である。 近年,画像分割による意味的手がかりがステレオマッチングの結果を改善する効果が示されている。 ステレオマッチングにおけるセマンティックセグメンテーションの利点を活用するために、多くのディープニューラルネットワークアーキテクチャが提案されている。 本稿では,リアルタイムアプリケーションにおいて重要となる精度と速度の両面で,アートネットワークの現状を比較することを目的とする。

Stereo matching is one of the widely used techniques for inferring depth from stereo images owing to its robustness and speed. It has become one of the major topics of research since it finds its applications in autonomous driving, robotic navigation, 3D reconstruction, and many other fields. Finding pixel correspondences in non-textured, occluded and reflective areas is the major challenge in stereo matching. Recent developments have shown that semantic cues from image segmentation can be used to improve the results of stereo matching. Many deep neural network architectures have been proposed to leverage the advantages of semantic segmentation in stereo matching. This paper aims to give a comparison among the state of art networks both in terms of accuracy and in terms of speed which are of higher importance in real-time applications.
翻訳日:2021-09-22 19:35:08 公開日:2021-09-21
# (参考訳) ConvFiT:事前訓練された言語モデルの対話的微調整 [全文訳有]

ConvFiT: Conversational Fine-Tuning of Pretrained Language Models ( http://arxiv.org/abs/2109.10126v1 )

ライセンス: CC BY-SA 4.0
Ivan Vuli\'c, Pei-Hao Su, Sam Coope, Daniela Gerz, Pawe{\l} Budzianowski, I\~nigo Casanueva, Nikola Mrk\v{s}i\'c, Tsung-Hsien Wen(参考訳) 大規模なテキストコレクションに事前訓練されたトランスフォーマーベース言語モデル(LM)は、豊富なセマンティック知識を保存することが証明されている。 しかし、 1)オフザシェルフ使用時の文エンコーダとして有効ではない。 2) 典型的には、意図検出(ID)などの会話タスクにおいて、会話事前訓練(例えば、応答選択)エンコーダに遅れが生じる。 本研究では,事前学習されたlmを(第1段階以降)普遍会話エンコーダと(第2段階以降)タスク特化文エンコーダに変換する,単純かつ効率的な二段階手順であるconvfitを提案する。 私たちはそれを証明します 1) 本格的な会話事前学習は必要とせず, lms は少ない量の無記名データを持つ効果的な会話エンコーダに迅速に変換できる。 2) 訓練済みのLMをタスク特化文エンコーダに微調整し,特定のタスクの微粒な意味論に最適化する。 したがって、このような特殊化文エンコーダは、解釈可能な近傍の検索に基づいて、IDを単純な意味的類似性タスクとして扱うことができる。 我々は、ConvFiTフレームワークの堅牢性と汎用性を、標準的なID評価セットに類似性に基づく推論で検証する。

Transformer-based language models (LMs) pretrained on large text collections are proven to store a wealth of semantic knowledge. However, 1) they are not effective as sentence encoders when used off-the-shelf, and 2) thus typically lag behind conversationally pretrained (e.g., via response selection) encoders on conversational tasks such as intent detection (ID). In this work, we propose ConvFiT, a simple and efficient two-stage procedure which turns any pretrained LM into a universal conversational encoder (after Stage 1 ConvFiT-ing) and task-specialised sentence encoder (after Stage 2). We demonstrate that 1) full-blown conversational pretraining is not required, and that LMs can be quickly transformed into effective conversational encoders with much smaller amounts of unannotated data; 2) pretrained LMs can be fine-tuned into task-specialised sentence encoders, optimised for the fine-grained semantics of a particular task. Consequently, such specialised sentence encoders allow for treating ID as a simple semantic similarity task based on interpretable nearest neighbours retrieval. We validate the robustness and versatility of the ConvFiT framework with such similarity-based inference on the standard ID evaluation sets: ConvFiT-ed LMs achieve state-of-the-art ID performance across the board, with particular gains in the most challenging, few-shot setups.
翻訳日:2021-09-22 19:24:56 公開日:2021-09-21
# (参考訳) グラフニューラルネットワークによる一般最適政策の学習:表現力,透明性,限界 [全文訳有]

Learning General Optimal Policies with Graph Neural Networks: Expressive Power, Transparency, and Limits ( http://arxiv.org/abs/2109.10129v1 )

ライセンス: CC BY 4.0
Simon St{\aa}hlberg, Blai Bonet, Hector Geffner(参考訳) 近年、多くの古典的な計画領域の一般的なポリシーは、記述論理文法を用いて、ドメイン述語から定義された特徴のプールを用いて表現し、学習できることが示されている。 同時に、ほとんどの記述論理は、グラフニューラルネットワークの表現力の厳密な特性を示すことが示されている、$k$-variable counting logic (c_k$) の断片に$k=2$に対応する。 本研究では、これらの結果を用いて、グラフニューラルネットワーク(GNN)を用いて、そのようなポリシーが存在することが知られている複数のトラクタブルプランニングドメイン上で最適な汎用ポリシーを学習する能力と限界を理解する。 このため、多数のサンプル状態の最適値関数 $V^{*}(s)$ を近似するために、教師付き方法で単純なGNNを訓練する。 この理論によって予測されるように、一般的な最適値関数が$C_2$特徴で定義できる領域では、より表現力のある$C_3$特徴を必要とする領域では、一般的な最適ポリシーが得られない。 さらに、学習した特徴が閉じた形で$v^{*}$を表現するのに必要な特徴と密接に対応していることが観察される。 ドメインの理論と分析により、実際に学習される機能と、この方法では学べない機能を理解することができ、組合せ最適化アプローチから一般的なポリシーを学ぶための原則的な方法から、ディープラーニングに基づいた潜在的で堅牢でスケーラブルなアプローチに移行することができます。

It has been recently shown that general policies for many classical planning domains can be expressed and learned in terms of a pool of features defined from the domain predicates using a description logic grammar. At the same time, most description logics correspond to a fragment of $k$-variable counting logic ($C_k$) for $k=2$, that has been shown to provide a tight characterization of the expressive power of graph neural networks. In this work, we make use of these results to understand the power and limits of using graph neural networks (GNNs) for learning optimal general policies over a number of tractable planning domains where such policies are known to exist. For this, we train a simple GNN in a supervised manner to approximate the optimal value function $V^{*}(s)$ of a number of sample states $s$. As predicted by the theory, it is observed that general optimal policies are obtained in domains where general optimal value functions can be defined with $C_2$ features but not in those requiring more expressive $C_3$ features. In addition, it is observed that the features learned are in close correspondence with the features needed to express $V^{*}$ in closed form. The theory and the analysis of the domains let us understand the features that are actually learned as well as those that cannot be learned in this way, and let us move in a principled manner from a combinatorial optimization approach to learning general policies to a potentially, more robust and scalable approach based on deep learning.
翻訳日:2021-09-22 18:52:36 公開日:2021-09-21
# (参考訳) 自然言語理解のための雑音ラベルによる知識蒸留 [全文訳有]

Knowledge Distillation with Noisy Labels for Natural Language Understanding ( http://arxiv.org/abs/2109.10147v1 )

ライセンス: CC BY 4.0
Shivendra Bhardwaj, Abbas Ghaddar, Ahmad Rashid, Khalil Bibi, Chengyang Li, Ali Ghodsi, Philippe Langlais, Mehdi Rezagholizadeh(参考訳) 知識蒸留(KD)は、実世界のアプリケーションのためのエッジデバイス上で、大規模な事前訓練された言語モデルを圧縮およびデプロイするために広く利用されている。 しかし、研究の無視された領域は、KDに対するノイズ(破損)ラベルの影響である。 我々は,自然言語理解(nlu)における雑音ラベル付きkdに関する最初の研究を,我々の知識を最大限に活用するために提示する。 この問題の範囲を文書化し,ラベルノイズの影響を軽減する2つの手法を提案する。 GLUEベンチマーク実験により, 高い騒音レベル下でも有効であることが示された。 しかしながら,kd下でラベルノイズに対処するためには,さらなる研究が必要であることが示唆された。

Knowledge Distillation (KD) is extensively used to compress and deploy large pre-trained language models on edge devices for real-world applications. However, one neglected area of research is the impact of noisy (corrupted) labels on KD. We present, to the best of our knowledge, the first study on KD with noisy labels in Natural Language Understanding (NLU). We document the scope of the problem and present two methods to mitigate the impact of label noise. Experiments on the GLUE benchmark show that our methods are effective even under high noise levels. Nevertheless, our results indicate that more research is necessary to cope with label noise under the KD.
翻訳日:2021-09-22 18:32:45 公開日:2021-09-21
# (参考訳) 解釈可能な方向性の多様性: 反復的集団観念のためのモデル説明の活用

Interpretable Directed Diversity: Leveraging Model Explanations for Iterative Crowd Ideation ( http://arxiv.org/abs/2109.10149v1 )

ライセンス: CC BY 4.0
Yunlong Wang, Priyadarshini Venkatesh, Brian Y. Lim(参考訳) フィードバックは、クラウドワーカーがアイデアを改善するのに役立つ。 しかし、現在のフィードバック手法はファシリテーターや仲間からの人間の評価を必要とする。 これは大観衆にはスケーラブルではない。 我々は、アイデアの質と多様性のスコアを自動的に予測するための解釈可能な方向性の多様性を提案し、なぜアイデアが得点されたのか(下)、より高いスコアを得る方法についてより深いフィードバックを得るために、AIの説明を提供する。 これらの説明は、ユーザがアイデアを反復的に改善するときに、多面的なフィードバックを提供する。 多様な説明がいかに使われているかを理解するために,思考学習と制御されたユーザスタディを行い,説明が思考の多様性と品質を改善するかを検討した。 ユーザーは説明フィードバックが努力に集中し、改善のための指示を与えるのに役立ったことを感謝した。 その結果、予測のみによるフィードバックやフィードバックよりも多様性が向上した。 したがって、私たちのアプローチは、反復的な群衆の考えに対するスケーラブルでリッチなフィードバックに向けて、説明可能なAIの機会を開放します。

Feedback can help crowdworkers to improve their ideations. However, current feedback methods require human assessment from facilitators or peers. This is not scalable to large crowds. We propose Interpretable Directed Diversity to automatically predict ideation quality and diversity scores, and provide AI explanations - Attribution, Contrastive Attribution, and Counterfactual Suggestions - for deeper feedback on why ideations were scored (low), and how to get higher scores. These explanations provide multi-faceted feedback as users iteratively improve their ideation. We conducted think aloud and controlled user studies to understand how various explanations are used, and evaluated whether explanations improve ideation diversity and quality. Users appreciated that explanation feedback helped focus their efforts and provided directions for improvement. This resulted in explanations improving diversity compared to no feedback or feedback with predictions only. Hence, our approach opens opportunities for explainable AI towards scalable and rich feedback for iterative crowd ideation.
翻訳日:2021-09-22 18:22:42 公開日:2021-09-21
# (参考訳) ランダムクエリの対数から低次関数を学習する [全文訳有]

Learning low-degree functions from a logarithmic number of random queries ( http://arxiv.org/abs/2109.10162v1 )

ライセンス: CC BY 4.0
Alexandros Eskenazis and Paata Ivanisvili(参考訳) 任意の整数 $n\in\mathbb{N}$, $d\in\{1,\ldots,n\}$ および任意の $\varepsilon,\delta\ in(0,1)$, a bounded function $f:\{-1,1\}^n\to[-1,1]$ に対して、少なくとも 1-\delta$ と $L_2$-error $\varepsilon$ を $\log(\tfrac{n}{\delta})\,\varepsilon^{-d-1} C^{d^{3/2}\sqrt{\log d}} を用いて学習できることを証明する。

We prove that for any integer $n\in\mathbb{N}$, $d\in\{1,\ldots,n\}$ and any $\varepsilon,\delta\ in(0,1)$, a bounded function $f:\{-1,1\}^n\to[-1,1]$ of degree at most $d$ can be learned with probability at least $1-\delta$ and $L_2$-error $\varepsilon$ using $\log(\tfrac{n}{\delta})\,\varepsilon^{-d-1} C^{d^{3/2}\sqrt{\log d}}$ random queries for a universal finite constant $C>1$.
翻訳日:2021-09-22 18:21:39 公開日:2021-09-21
# (参考訳) RAIL-KD:知識蒸留のためのランダム中間層マッピング [全文訳有]

RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation ( http://arxiv.org/abs/2109.10164v1 )

ライセンス: CC BY 4.0
Md Akmal Haidar, Nithin Anchuri, Mehdi Rezagholizadeh, Abbas Ghaddar, Philippe Langlais, Pascal Poupart(参考訳) 中間層知識蒸留(英語版)(KD)は、特に大規模な事前訓練された言語モデルよりも標準KD技術(教師および学生モデルの出力のみを対象とする)を改善することができる。 しかし、中間層蒸留は、適切な層マッピングを構築するのに必要な過剰な計算負担とエンジニアリング努力に悩まされる。 これらの問題に対処するために、教師モデルから中間層をランダムに選択し、学生モデルの中間層に蒸留するRandom Intermediate Layer Knowledge Distillation (RAIL-KD)アプローチを提案する。 すべての教師層は、中間層蒸留の計算コストを削減しつつ、トレーニングプロセスにおいて考慮される。 また,学生モデルの一般化性を向上させるためのレギュラライザとして機能することを示す。 グルータスクやドメイン外テストセットについても,広範な実験を行います。 我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。

Intermediate layer knowledge distillation (KD) can improve the standard KD technique (which only targets the output of teacher and student models) especially over large pre-trained language models. However, intermediate layer distillation suffers from excessive computational burdens and engineering efforts required for setting up a proper layer mapping. To address these problems, we propose a RAndom Intermediate Layer Knowledge Distillation (RAIL-KD) approach in which, intermediate layers from the teacher model are selected randomly to be distilled into the intermediate layers of the student model. This randomized selection enforce that: all teacher layers are taken into account in the training process, while reducing the computational cost of intermediate layer distillation. Also, we show that it act as a regularizer for improving the generalizability of the student model. We perform extensive experiments on GLUE tasks as well as on out-of-domain test sets. We show that our proposed RAIL-KD approach outperforms other state-of-the-art intermediate layer KD methods considerably in both performance and training-time.
翻訳日:2021-09-22 18:11:14 公開日:2021-09-21
# (参考訳) 1つのソース、2つのターゲット:二重復号の挑戦と報酬 [全文訳有]

One Source, Two Targets: Challenges and Rewards of Dual Decoding ( http://arxiv.org/abs/2109.10197v1 )

ライセンス: CC BY 4.0
Jitao Xu and Fran\c{c}ois Yvon(参考訳) 機械翻訳は一般に、入力元文書から1つの対象テキストを生成すると解釈される。 本稿では,2つのテキストを共同で生成し,各出力側が相互に効果的に依存できるようにするという,より強力な要件について考察する。 本稿では,マルチターゲット機械翻訳から,対象テキストの制御されたバリエーションの生成に至るまで,このような装置を実用的に活用する。 本稿では,二重復号化の可能な実装の解析を行い,4つのアプリケーションについて実験を行う。 複数の角度から問題を視ることにより、二重復号化の課題をより強調し、また、独立した翻訳ではなく、マッチング生成の利点を徹底的に分析することが可能になる。

Machine translation is generally understood as generating one target text from an input source document. In this paper, we consider a stronger requirement: to jointly generate two texts so that each output side effectively depends on the other. As we discuss, such a device serves several practical purposes, from multi-target machine translation to the generation of controlled variations of the target text. We present an analysis of possible implementations of dual decoding, and experiment with four applications. Viewing the problem from multiple angles allows us to better highlight the challenges of dual decoding and to also thoroughly analyze the benefits of generating matched, rather than independent, translations.
翻訳日:2021-09-22 17:54:57 公開日:2021-09-21
# (参考訳) 集団学習戦略を用いた多元性モデルの適応信頼度解析 [全文訳有]

Adaptive Reliability Analysis for Multi-fidelity Models using a Collective Learning Strategy ( http://arxiv.org/abs/2109.10219v1 )

ライセンス: CC BY 4.0
Chi Zhang, Chaolin Song and Abdollah Shafieezadeh(参考訳) 科学と工学の多くの分野において、異なるフィダリティを持つモデルが利用可能である。 システムの挙動を正確に捉える物理実験や詳細なシミュレーションは、モデルの不確実性の低い高忠実度モデルとみなされるが、実行には高価である。 一方, 簡易な物理実験や数値モデルは, 低忠実度モデルとして評価しやすくなっている。 低忠実度モデルは信頼性解析の直接使用には適さないことが多いが、高忠実度モデルの傾向に関する情報を提供することができ、低コストで設計空間を探索する機会を得ることができる。 本研究では,信頼性解析のための適応多忠実ガウス法(AMGPRA)を提案する。 現状のmfEGRA法では,2つの異なる段階のトレーニングポイントと情報ソースを選択するのに対して,提案手法では,新しい集合学習機能(CLF)を用いて,最適なトレーニングポイントと情報ソースを同時に検出する。 CLFは、情報ソースから候補トレーニングポイントのグローバルな影響を評価することができ、特定のプロファイルを満たす任意の学習機能に対応できる。 この文脈では、CLFは新しいトレーニングポイントの影響を定量化するための新しい方向を提供し、異なる信頼性問題に適応するために、新しい学習機能で容易に拡張できる。 提案手法の性能は,送信塔の風力信頼性に関する3つの数学的例と1つの工学的問題によって実証された。 提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。 AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。

In many fields of science and engineering, models with different fidelities are available. Physical experiments or detailed simulations that accurately capture the behavior of the system are regarded as high-fidelity models with low model uncertainty, however, they are expensive to run. On the other hand, simplified physical experiments or numerical models are seen as low-fidelity models that are cheaper to evaluate. Although low-fidelity models are often not suitable for direct use in reliability analysis due to their low accuracy, they can offer information about the trend of the high-fidelity model thus providing the opportunity to explore the design space at a low cost. This study presents a new approach called adaptive multi-fidelity Gaussian process for reliability analysis (AMGPRA). Contrary to selecting training points and information sources in two separate stages as done in state-of-the-art mfEGRA method, the proposed approach finds the optimal training point and information source simultaneously using the novel collective learning function (CLF). CLF is able to assess the global impact of a candidate training point from an information source and it accommodates any learning function that satisfies a certain profile. In this context, CLF provides a new direction for quantifying the impact of new training points and can be easily extended with new learning functions to adapt to different reliability problems. The performance of the proposed method is demonstrated by three mathematical examples and one engineering problem concerning the wind reliability of transmission towers. It is shown that the proposed method achieves similar or higher accuracy with reduced computational costs compared to state-of-the-art single and multi-fidelity methods. A key application of AMGPRA is high-fidelity fragility modeling using complex and costly physics-based computational models.
翻訳日:2021-09-22 17:36:14 公開日:2021-09-21
# (参考訳) Blindness to Modalityはグラフマイニングに役立つ [全文訳有]

Blindness to Modality Helps Entailment Graph Mining ( http://arxiv.org/abs/2109.10227v1 )

ライセンス: CC BY-SA 4.0
Liane Guillou, Sander Bijl de Vroe, Mark Johnson, Mark Steedman(参考訳) 言語的モダリティを理解することは、質問応答や知識グラフの人口といった下流のタスクにとって重要であると広く考えられている。 グラフ学習もモダリティへの注意から恩恵を受ける可能性がある。 モーダルパーサでフィルタリングしたニュースコーパスを用いてエンテリメントグラフを構築し,実際に述語からモーダル修飾子を抽出することで性能が向上することを示す。 これは、いくつかのタスクにおいて述語を修飾する実践的な方法によって、それらに補足の証拠として貢献できることを示唆している。

Understanding linguistic modality is widely seen as important for downstream tasks such as Question Answering and Knowledge Graph Population. Entailment Graph learning might also be expected to benefit from attention to modality. We build Entailment Graphs using a news corpus filtered with a modality parser, and show that stripping modal modifiers from predicates in fact increases performance. This suggests that for some tasks, the pragmatics of modal modification of predicates allows them to contribute as evidence of entailment.
翻訳日:2021-09-22 17:14:50 公開日:2021-09-21
# (参考訳) SalienTrack: モデル説明を用いた半自動自己追跡フィードバックのための健全な情報提供

SalienTrack: providing salient information for semi-automated self-tracking feedback with model explanations ( http://arxiv.org/abs/2109.10231v1 )

ライセンス: CC BY 4.0
Yunlong Wang, Jiaying Liu, Homin Park, Jordan Schultz-McArdle, Stephanie Rosenthal, Brian Y Lim(参考訳) 自己追跡は、不健康な行動に対する人々の認識を改善し、行動の変化に対する洞察を与える。 これまでの研究は、セルフトラッカーがログデータをどのように反映しているかを調査してきたが、追跡フィードバックからどれだけ学習するか、どの情報がより有用かは、まだ不明だ。 実際、フィードバックは依然として圧倒的であり、簡潔にすることで集中力を高め、解釈の負担を減らすことで学習を改善することができる。 本研究は,2つのフィードバックモード(手動ジャーナリングと食品画像の自動注釈)を用いた移動食品の検層調査を行い,栄養,アセスメント,行動,文脈情報に関する学習の差異を明らかにした。 我々は,フィードバックの提供時期,情報提供時期,詳細理由,提示方法(手作業による問い合わせや自動フィードバックなど)を定義するための,自己追跡型フィードバックサラジェンシフレームワークを提案する。 これらの要件を実装するためにSaienTrackを提案する。 ユーザ調査から収集したデータを用いて,トラッキングされた各イベントからユーザが学習するかどうかを予測するマシンラーニングモデルをトレーニングした。 説明可能なAI(XAI)技術を使用して、インスタンスごとの最も健全な機能と、それがポジティブな学習結果につながる理由を特定しました。 自己追跡における学習可能性の意義とモデル説明可能性の追加がフィードバック体験を改善する機会をいかに広げるかについて議論する。

Self-tracking can improve people's awareness of their unhealthy behaviors to provide insights towards behavior change. Prior work has explored how self-trackers reflect on their logged data, but it remains unclear how much they learn from the tracking feedback, and which information is more useful. Indeed, the feedback can still be overwhelming, and making it concise can improve learning by increasing focus and reducing interpretation burden. We conducted a field study of mobile food logging with two feedback modes (manual journaling and automatic annotation of food images) and identified learning differences regarding nutrition, assessment, behavioral, and contextual information. We propose a Self-Tracking Feedback Saliency Framework to define when to provide feedback, on which specific information, why those details, and how to present them (as manual inquiry or automatic feedback). We propose SalienTrack to implement these requirements. Using the data collected from the user study, we trained a machine learning model to predict whether a user would learn from each tracked event. Using explainable AI (XAI) techniques, we identified the most salient features per instance and why they lead to positive learning outcomes. We discuss implications for learnability in self-tracking, and how adding model explainability expands opportunities for improving feedback experience.
翻訳日:2021-09-22 17:04:27 公開日:2021-09-21
# (参考訳) audiomer:キーワードスポッティングのための畳み込みトランスフォーマー [全文訳有]

Audiomer: A Convolutional Transformer for Keyword Spotting ( http://arxiv.org/abs/2109.10252v1 )

ライセンス: CC BY 4.0
Surya Kant Sahu, Sai Mitheran, Juhi Kamdar, Meet Gandhi(参考訳) トランスフォーマーは自然言語処理とコンピュータビジョンタスクが前例のない増加を見せている。 しかし、音声タスクでは、非常に大きな音声波形のシーケンス長のために訓練ができないか、フーリエ方式による特徴抽出後に競合性能に達するか、損失フロアが発生する。 本研究では,1D Residual Networks と Performer Attention を併用して,生音声波形を用いたキーワードスポッティングの最先端性能を実現し,従来の手法を全て上回りながら,計算上より安価で,パラメータやデータ効率が向上するアーキテクチャ,Audiomerを提案する。 Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。

Transformers have seen an unprecedented rise in Natural Language Processing and Computer Vision tasks. However, in audio tasks, they are either infeasible to train due to extremely large sequence length of audio waveforms or reach competitive performance after feature extraction through Fourier-based methods, incurring a loss-floor. In this work, we introduce an architecture, Audiomer, where we combine 1D Residual Networks with Performer Attention to achieve state-of-the-art performance in Keyword Spotting with raw audio waveforms, out-performing all previous methods while also being computationally cheaper, much more parameter and data-efficient. Audiomer allows for deployment in compute-constrained devices and training on smaller datasets.
翻訳日:2021-09-22 17:02:56 公開日:2021-09-21
# (参考訳) ヘイトスピーチと攻撃的言語認識のための感性・感情・目標検出によるマルチタスク学習 [全文訳有]

Multi-Task Learning with Sentiment, Emotion, and Target Detection to Recognize Hate Speech and Offensive Language ( http://arxiv.org/abs/2109.10255v1 )

ライセンス: CC BY 4.0
Flor Miriam Plaza-del-Arco and Sercan Halat and Sebastian Pad\'o and Roman Klinger(参考訳) ヘイトスピーチと攻撃言語(HOF)の認識は、テキストがHOFを含むかどうかを決定するための分類タスクとして一般的に定式化される。 HOFと類似概念の関係を考慮し,HOF検出が利益をもたらすかどうかを検討する。 (a)ヘイトスピーチは一般的に否定的な発言であり、否定的な意見を表すため、感情分析と関連している。 (b)「憎しみ」は、著者が怒りを経験する(または経験するふりをする)一方で、相手が恐れを経験する(または経験する意図がある)ことを指す。 (c) 最後に、HOFを構成する1つの要素は、対象者又は団体の言及である。 そこで本研究では,HOF検出は,これらの概念と協調してモデル化された場合,マルチタスク学習環境における改善を示すと仮定する。 我々はこれらの概念(感情、感情、HOFのターゲット)のそれぞれに既存のデータセットをベースとして、HASOC FIRE 2021 English Subtask 1Aの参加者として、我々のモデルを評価した。 複数の利用可能なリソースと共有タスクへのサブミットを考慮したモデル選択実験から,CrowdFlowerの感情コーパス,SemEval 2016 Sentiment Corpus,OffensEval 2019のターゲット検出データの組み合わせは,BERTをベースとしたマルチタスク学習モデルにおいて,通常のBERTの.7895と比較してF1=.79となることがわかった。 HASOC 2019 テストデータでは、この結果は F1 の 2pp の増加とリコールの大幅な増加により、より実質的である。 両方のデータセット(2019年、2021年)全体で、HOF(2019年のデータでは6pp、2021年データでは3pp)のクラスではリコールが特に増加しており、ソーシャルメディアプラットフォームにデプロイされる可能性のある早期警告システムには、感情、感情、ターゲット識別を備えたMTLが適切なアプローチであることを示している。

The recognition of hate speech and offensive language (HOF) is commonly formulated as a classification task to decide if a text contains HOF. We investigate whether HOF detection can profit by taking into account the relationships between HOF and similar concepts: (a) HOF is related to sentiment analysis because hate speech is typically a negative statement and expresses a negative opinion; (b) it is related to emotion analysis, as expressed hate points to the author experiencing (or pretending to experience) anger while the addressees experience (or are intended to experience) fear. (c) Finally, one constituting element of HOF is the mention of a targeted person or group. On this basis, we hypothesize that HOF detection shows improvements when being modeled jointly with these concepts, in a multi-task learning setup. We base our experiments on existing data sets for each of these concepts (sentiment, emotion, target of HOF) and evaluate our models as a participant (as team IMS-SINAI) in the HASOC FIRE 2021 English Subtask 1A. Based on model-selection experiments in which we consider multiple available resources and submissions to the shared task, we find that the combination of the CrowdFlower emotion corpus, the SemEval 2016 Sentiment Corpus, and the OffensEval 2019 target detection data leads to an F1 =.79 in a multi-head multi-task learning model based on BERT, in comparison to .7895 of plain BERT. On the HASOC 2019 test data, this result is more substantial with an increase by 2pp in F1 and a considerable increase in recall. Across both data sets (2019, 2021), the recall is particularly increased for the class of HOF (6pp for the 2019 data and 3pp for the 2021 data), showing that MTL with emotion, sentiment, and target identification is an appropriate approach for early warning systems that might be deployed in social media platforms.
翻訳日:2021-09-22 16:55:11 公開日:2021-09-21
# (参考訳) Skeleton-Graph:Deep Spatio-Temporal Graph CNNを用いた2次元観測による長期3次元運動予測 [全文訳有]

Skeleton-Graph: Long-Term 3D Motion Prediction From 2D Observations Using Deep Spatio-Temporal Graph CNNs ( http://arxiv.org/abs/2109.10257v1 )

ライセンス: CC BY 4.0
Abduallah Mohamed, Huancheng Chen, Zhangyang Wang and Christian Claudel(参考訳) 自律運転、拡張現実、仮想現実などのいくつかのアプリケーションは、3D人間のポーズを正確に予測する必要がある。 近年,観察した2次元ポーズから3次元人間のポーズを予測する新たな課題が提案されている。 本研究では,2次元モデルから1回のパスで将来の3Dスケルトンポーズを予測する,深部時空間グラフCNNモデルであるSkeleton-Graphを提案する。 以前の作品とは異なり、スケルトングラフは空間的構成を利用してスケルトン関節間の相互作用をモデル化することに焦点を当てている。 これは、適切なグラフ隣接カーネルを学習しながら問題をグラフ構造として定式化することで実現されている。 デザインによって、スケルトングラフは、以前の作品とは異なり、長期的な変化なしに将来の3dポーズを予測する。 また,長期的な予測の相違を計測する新しい指標も導入する。 以上の結果より,GTA-IMおよびPROXデータセットのFDE改善率は27%,ADEは4%であった。 また、GTA-IMおよびPROXデータセットの先行研究と比較して、長期動作予測において88%と93%のばらつきがある。 https://github.com/a bduallahmohamed/Skel eton-Graph.git

Several applications such as autonomous driving, augmented reality and virtual reality requires a precise prediction of the 3D human pose. Recently, a new problem was introduced in the field to predict the 3D human poses from an observed 2D poses. We propose Skeleton-Graph, a deep spatio-temporal graph CNN model that predicts the future 3D skeleton poses in a single pass from the 2D ones. Unlike prior works, Skeleton-Graph focuses on modeling the interaction between the skeleton joints by exploiting their spatial configuration. This is being achieved by formulating the problem as a graph structure while learning a suitable graph adjacency kernel. By the design, Skeleton-Graph predicts the future 3D poses without divergence on the long-term unlike prior works. We also introduce a new metric that measures the divergence of predictions on the long-term. Our results show an FDE improvement of at least 27% and an ADE of 4% on both the GTA-IM and PROX datasets respectively in comparison with prior works. Also, we are 88% and 93% less divergence on the long-term motion prediction in comparison with prior works on both GTA-IM and PROX datasets. https://github.com/a bduallahmohamed/Skel eton-Graph.git
翻訳日:2021-09-22 16:24:36 公開日:2021-09-21
# (参考訳) 肝移植の視力を表わす動脈血圧波形の時間的構造異常の発見と教師なし多様体学習による短期手術成績の予測

Discovery of temporal structure intricacy in arterial blood pressure waveforms representing acuity of liver transplant and forecasting short term surgical outcome via unsupervised manifold learning ( http://arxiv.org/abs/2109.10258v1 )

ライセンス: CC BY 4.0
Shen-Chih Wang, Chien-Kun Ting, Cheng-Yen Chen, Chin-Su Liu, Niang-Cheng Lin, Che-Chuan Loon, Hau-Tieng Wu, Yu-Ting Lin(参考訳) 背景: 肝移植手術において, 動脈血圧(ABP)波形は連続パルスで進行する。 我々は波形の進化の定量化が反映すると仮定した。 1)肝移植を受けた受取人の明度 2)短期的手術成績を予測する術中動態。 方法: 生体ドナー肝移植手術における1コホート研究の展望として, ABPデータから非教師なし多様体学習波形解析を用いて波形形態変化を抽出した。 2つの定量的指標、傾向運動と変動運動は、それぞれ遅い変動と速い変動のダイナミクスを表すために開発された。 末期肝疾患モデル(meld)と初期同種移植不全(eaf),移植後の肝移植評価(l-graft),早期同種移植不全簡易評価(ease)スコア,早期同種移植機能評価(meaf)スコアなど,最近開発されたeafスコアとの関連について検討した。 結果:受講者は60名。 術前の傾向はMELDスコアと相関していた。 抗肝効果は低下した。 新肝傾向運動はl-graftスコア,easyスコア,meafスコアと相関した。 EAFスコアは術後7日目のビリルビンと最も相関した傾向を示した。 結論: 術前相におけるABP波形の進行は, 術後7~10日目の手術データから得られた短期的手術成績を呈し, 受容器の容積状態を反映する。 波形の進化は術中の早期の成果を反映している。

Background: Arterial blood pressure (ABP) waveform evolves across each consecutive pulse during the liver transplant surgery. We hypothesized that the quantification of the waveform evolution reflects 1) the acuity of the recipient undergoing liver transplant and 2) the intraoperative dynamics that forecasts short-term surgical outcomes. Methods: In this prospective observational single cohort study on living donor liver transplant surgery, we extracted the waveform morphological evolution from the ABP data with the unsupervised manifold learning waveform analysis. Two quantitative indices, trend movement and fluctuation movement, were developed to represent the slow-varying and fast-varying dynamics respectively. We investigated the associations with the liver disease acuity represented with the Model for End-Stage Liver Disease (MELD) score and the primary outcomes, the early allograft failure (EAF), as well as the recently developed EAF scores, including the Liver Graft Assessment Following Transplantation (L-GrAFT) score, the Early Allograft Failure Simplified Estimation (EASE) score, and the Model for Early Allograft Function (MEAF) score. Results: Sixty recipients were enrolled. The presurgical trend movement was correlated with the MELD scores. It decreased in the anhepatic phase. The neohepatic trend movement correlated with the L-GrAFT scores, the EASE score, and the MEAF score. Regarding the constituent of the EAF scores, the trend movement most correlated with the postoperative day 7 bilirubin. Conclusions: The ABP waveform evolution intricacy in the presurgical phase reflects recipients' acuity condition while that in the neohepatic phase reveal the short-term surgical outcome calculated from laboratory data in postoperative day 7-10. The waveform evolution reflects the intraoperative contribution to the early outcome.
翻訳日:2021-09-22 16:10:28 公開日:2021-09-21
# (参考訳) ニューラルネットワークモデルにおけるドメイン適応のトレードオフ [全文訳有]

The Trade-offs of Domain Adaptation for Neural Language Models ( http://arxiv.org/abs/2109.10274v1 )

ライセンス: CC BY 4.0
Dan Iter and David Grangier(参考訳) 本稿では,言語モデル適応と機械学習理論の概念を結びつける。 我々は、大きなドメイン外セットと小さなドメイン内セットを持つトレーニングセットアップを検討する。 最初の貢献として、どちらの集合上でもモデルをトレーニングする利点が、集合のサイズと基礎となる分布の間の距離に依存するかが導かれる。 第2の貢献として,最も一般的なデータ選択手法 – 重要サンプリング,インテリジェントデータ選択,影響関数 – を,その類似性と微妙な違いを強調する共通フレームワークで提示する方法を紹介する。

In this paper, we connect language model adaptation with concepts of machine learning theory. We consider a training setup with a large out-of-domain set and a small in-domain set. As a first contribution, we derive how the benefit of training a model on either set depends on the size of the sets and the distance between their underlying distribution. As a second contribution, we present how the most popular data selection techniques -- importance sampling, intelligent data selection and influence functions -- can be presented in a common framework which highlights their similarity and also their subtle differences.
翻訳日:2021-09-22 16:08:19 公開日:2021-09-21
# (参考訳) 早期・否定可能な時系列分類 [全文訳有]

Early and Revocable Time Series Classification ( http://arxiv.org/abs/2109.10285v1 )

ライセンス: CC BY 4.0
Youssef Achenchabe, Alexis Bondu, Antoine Cornu\'ejols, Vincent Lemaire(参考訳) 医療、輸送、fi-nanceなど幅広い応用において、時系列の早期分類には多くのアプローチが提案されている。 これまで、初期の分類問題は、唯一の無効な決定を考慮に入れることで対処されてきた。 本稿では,新しい測定値に基づいて,意思決定者が事前決定を無効にできる早期・無効な時系列分類を提案する。 この問題を形式化し解決するために,我々は新しいコストベースのフレームワークを提案し,それから2つの新しいアプローチを導出する。 第1のアプローチは、決定を変更するコストを明示的に考慮しないが、第2のアプローチはそうする。 これらのアプローチを実データセットの大規模なベンチマークで評価するために,exten-sive実験を行った。 実感的に得られた実験結果 (i)無効化決定の能力は、再生不能な体制に対する性能を著しく向上させ、 (二)意思決定のコストを考慮すると、一般にさらに良い結果が得られる。キーワード:取り消し可能な決定、コスト見積、オンライン意思決定

Many approaches have been proposed for early classification of time series in light of itssignificance in a wide range of applications including healthcare, transportation and fi-nance. Until now, the early classification problem has been dealt with by considering onlyirrevocable decisions. This paper introduces a new problem calledearly and revocabletimeseries classification, where the decision maker can revoke its earlier decisions based on thenew available measurements. In order to formalize and tackle this problem, we propose anew cost-based framework and derive two new approaches from it. The first approach doesnot consider explicitly the cost of changing decision, while the second one does. Exten-sive experiments are conducted to evaluate these approaches on a large benchmark of realdatasets. The empirical results obtained convincingly show (i) that the ability of revok-ing decisions significantly improves performance over the irrevocable regime, and (ii) thattaking into account the cost of changing decision brings even better results in general.Keywords:rev ocable decisions, cost estimation, online decision making
翻訳日:2021-09-22 15:51:31 公開日:2021-09-21
# (参考訳) 確率的ニューラルネットワークのためのPAC-Bayes事前学習 [全文訳有]

Learning PAC-Bayes Priors for Probabilistic Neural Networks ( http://arxiv.org/abs/2109.10304v1 )

ライセンス: CC BY 4.0
Maria Perez-Ortiz and Omar Rivasplata and Benjamin Guedj and Matthew Gleeson and Jingyu Zhang and John Shawe-Taylor and Miroslaw Bober and Josef Kittler(参考訳) PAC-Bayes境界を最適化することで訓練されたディープラーニングモデルについて、最近の研究で研究されている。 この組み合わせは、正確な分類器だけでなく、極めて厳密なリスク証明書にもつながり、自己証明学習(予測器を学習し、その品質を認証するためにすべてのデータを使用する)への約束を負っている。 本研究では,前者の役割を実証的に検討する。 我々は,データ依存pac-bayesプライオリティを学習するために,戦略やデータ量が異なる6つのデータセットを実験し,それらのデータセットが学習者のテスト性能やリスク証明書の厳密性に与える影響について比較した。 事前構築のために割り当てるべき最適なデータの量は何かを問うとともに、最適なデータがデータセットに依存する可能性があることを示す。 我々は,事前構築データのごく一部を事前検証に使用すると有望な結果が得られることを示す。 本稿では,過度パラメータ化モデルと過度パラメータ化モデルの比較と,事前分布を学習するための異なるトレーニング目標と正規化戦略の実証的研究を含む。

Recent works have investigated deep learning models trained by optimising PAC-Bayes bounds, with priors that are learnt on subsets of the data. This combination has been shown to lead not only to accurate classifiers, but also to remarkably tight risk certificates, bearing promise towards self-certified learning (i.e. use all the data to learn a predictor and certify its quality). In this work, we empirically investigate the role of the prior. We experiment on 6 datasets with different strategies and amounts of data to learn data-dependent PAC-Bayes priors, and we compare them in terms of their effect on test performance of the learnt predictors and tightness of their risk certificate. We ask what is the optimal amount of data which should be allocated for building the prior and show that the optimum may be dataset dependent. We demonstrate that using a small percentage of the prior-building data for validation of the prior leads to promising results. We include a comparison of underparameterised and overparameterised models, along with an empirical study of different training objectives and regularisation strategies to learn the prior distribution.
翻訳日:2021-09-22 15:34:55 公開日:2021-09-21
# (参考訳) オープンドメイン質問応答のための関係誘導事前学習 [全文訳有]

Relation-Guided Pre-Training for Open-Domain Question Answering ( http://arxiv.org/abs/2109.10346v1 )

ライセンス: CC0 1.0
Ziniu Hu, Yizhou Sun, Kai-Wei Chang(参考訳) 複雑なオープンドメインの質問に答えるには、エンティティ間の潜在関係を理解する必要がある。 しかし,既存のQAデータセットはある種の関係において極めて不均衡であり,長い関係を持つ質問に対する一般化性能を損なうことが判明した。 本稿では,この問題を解決するためにRGPT-QA(Relation-Gui ded Pre-Training)フレームワークを提案する。 まず、ウィキデータとウィキペディアのハイパーリンクの両方から幅広い関係をカバーした関係性QAデータセットを生成する。 次に、質問から潜伏関係を推測するためにQAモデルを事前訓練し、抽出されたQAを対象の回答エンティティを取得する。 提案したRGPT-QA技術,人気のオープンドメインQAモデル,Dense Passage Retriever (DPR) を用いて事前トレーニングを行うことで,自然問題,TriviaQA,WebQuestio nsにおけるExact Match精度の2.2%,2.4%,および6.3%の絶対改善が達成された。 特に,RGPT-QAが長い関係を持つ質問に対して有意に改善することを示す。

Answering complex open-domain questions requires understanding the latent relations between involving entities. However, we found that the existing QA datasets are extremely imbalanced in some types of relations, which hurts the generalization performance over questions with long-tail relations. To remedy this problem, in this paper, we propose a Relation-Guided Pre-Training (RGPT-QA) framework. We first generate a relational QA dataset covering a wide range of relations from both the Wikidata triplets and Wikipedia hyperlinks. We then pre-train a QA model to infer the latent relations from the question, and then conduct extractive QA to get the target answer entity. We demonstrate that by pretraining with propoed RGPT-QA techique, the popular open-domain QA model, Dense Passage Retriever (DPR), achieves 2.2%, 2.4%, and 6.3% absolute improvement in Exact Match accuracy on Natural Questions, TriviaQA, and WebQuestions. Particularly, we show that RGPT-QA improves significantly on questions with long-tail relations
翻訳日:2021-09-22 15:08:08 公開日:2021-09-21
# 視覚・言語訓練は語彙的接地を改善するか?

Does Vision-and-Language Pretraining Improve Lexical Grounding? ( http://arxiv.org/abs/2109.10246v1 )

ライセンス: Link先を確認
Tian Yun, Chen Sun, Ellie Pavlick(参考訳) 文のみから派生した言語表現は、その根拠の欠如、すなわち物理世界で言葉と意味を結びつけることで批判されている。 視覚言語モデル(vl)は、テキストと画像またはビデオデータに基づいて共同で訓練され、そのような批判に対する反応として提供されてきた。 しかしながら、VL事前学習は視覚的質問応答のようなマルチモーダルなタスクで成功したが、内部言語表現自体がテキストのみのタスクとどのように比較されるかは未だ分かっていない。 本稿では,VLとテキストのみによる2つのVLモデルのセマンティック表現を,言語のみの設定による分析(クラスタリング,探索,共通解答タスクにおける性能)を用いて比較する。 マルチモーダルモデルはテキストのみの変種を著しく上回り得ず,NLPを改良する手段として,マルチモーダル事前学習が追求される場合,今後の作業が必要であることを示唆する。

Linguistic representations derived from text alone have been criticized for their lack of grounding, i.e., connecting words to their meanings in the physical world. Vision-and-Language (VL) models, trained jointly on text and image or video data, have been offered as a response to such criticisms. However, while VL pretraining has shown success on multimodal tasks such as visual question answering, it is not yet known how the internal linguistic representations themselves compare to their text-only counterparts. This paper compares the semantic representations learned via VL vs. text-only pretraining for two recent VL models using a suite of analyses (clustering, probing, and performance on a commonsense question answering task) in a language-only setting. We find that the multimodal models fail to significantly outperform the text-only variants, suggesting that future work is required if multimodal pretraining is to be pursued as a means of improving NLP in general.
翻訳日:2021-09-22 14:39:25 公開日:2021-09-21
# 法的データにおけるバイアスの同定:アルゴリズム的公平性の観点から

Identifying biases in legal data: An algorithmic fairness perspective ( http://arxiv.org/abs/2109.09946v1 )

ライセンス: Link先を確認
Jackson Sargent, Melanie Weber(参考訳) 判例データにおける表現バイアスと判決格差に対処する必要性は、長い間認識されてきた。 本稿では,大規模判例データ中のバイアスをアルゴリズム的公平性の観点から同定・測定する問題について検討する。 このアプローチでは,2つの回帰モデルを採用している。データから与えられる「定型」判断のベースラインと,3つのフェアネス概念の1つを適用する「フェア」判断のベースラインである。 典型的な」裁判官と「フェア」判事の判断を比較することで、クック郡(イリノイ市)の犯罪データに関する4つのケーススタディで示されるように、集団間のバイアスを定量化することができる。

The need to address representation biases and sentencing disparities in legal case data has long been recognized. Here, we study the problem of identifying and measuring biases in large-scale legal case data from an algorithmic fairness perspective. Our approach utilizes two regression models: A baseline that represents the decisions of a "typical" judge as given by the data and a "fair" judge that applies one of three fairness concepts. Comparing the decisions of the "typical" judge and the "fair" judge allows for quantifying biases across demographic groups, as we demonstrate in four case studies on criminal data from Cook County (Illinois).
翻訳日:2021-09-22 14:39:06 公開日:2021-09-21
# raven問題行列に対する教師なし抽象推論

Unsupervised Abstract Reasoning for Raven's Problem Matrices ( http://arxiv.org/abs/2109.10011v1 )

ライセンス: Link先を確認
Tao Zhuo, Qiang Huang, and Mohan Kankanhalli(参考訳) Raven's Progressive Matrices (RPM) は人間の知能と強く相関しており、人間の抽象的推論能力を測定するために広く用いられている。 本稿では,深層ニューラルネットワークの抽象的推論能力を検討するために,RPM問題の解法として初めて教師なし学習法を提案する。 基底真理ラベルは許可されていないので、rpmの定式化の事前の制約に基づいて擬似目標を設計して基底真理ラベルを近似し、教師なし学習戦略を教師なしのものに効果的に変換する。 しかし、正しい答えは疑似目標によって誤ってラベル付けされるため、ノイズの強いコントラストは不正確なモデルトレーニングにつながる。 この問題を軽減するため,ネガティブな回答でモデル性能を改善することを提案する。 さらに,特徴表現を異なるRPM問題に適応させる分散化手法を開発した。 3つのデータセットに対する大規模な実験は、我々の手法が教師付きアプローチよりも優れていることを示している。 私たちのコードはhttps://github.com/v isiontao/ncdで利用可能です。

Raven's Progressive Matrices (RPM) is highly correlated with human intelligence, and it has been widely used to measure the abstract reasoning ability of humans. In this paper, to study the abstract reasoning capability of deep neural networks, we propose the first unsupervised learning method for solving RPM problems. Since the ground truth labels are not allowed, we design a pseudo target based on the prior constraints of the RPM formulation to approximate the ground truth label, which effectively converts the unsupervised learning strategy into a supervised one. However, the correct answer is wrongly labelled by the pseudo target, and thus the noisy contrast will lead to inaccurate model training. To alleviate this issue, we propose to improve the model performance with negative answers. Moreover, we develop a decentralization method to adapt the feature representation to different RPM problems. Extensive experiments on three datasets demonstrate that our method even outperforms some of the supervised approaches. Our code is available at https://github.com/v isiontao/ncd.
翻訳日:2021-09-22 14:38:52 公開日:2021-09-21
# LOTR:Localization Transformerを用いた顔ランドマークのローカライゼーション

LOTR: Face Landmark Localization Using Localization Transformer ( http://arxiv.org/abs/2109.10057v1 )

ライセンス: Link先を確認
Ukrit Watchareeruetai, Benjaphan Sommanna, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Aubin Samacoits, Samuel W.F. Earp and Nakarin Sritrakool(参考訳) 本稿では,新しいトランスフォーマーベースの顔ランドマーク定位ネットワークであるローカライゼーショントランスフォーマ(lotr)を提案する。 提案するフレームワークは,Transformerネットワークを利用して特徴マップ内の空間情報をよりよく活用する,直接座標回帰手法である。 LOTRモデルは3つの主要モジュールから構成される。 1)入力画像を特徴地図に変換する視覚的バックボーン。 2)視覚バックボーンから特徴表現を改善するトランスフォーマーモジュール,および 3) 変圧器の表示からランドマーク座標を直接予測するランドマーク予測ヘッド。 トリミング・アンド・アライメントされた顔画像を考えると、提案したLOTRは後処理ステップを必要とせずにエンドツーエンドで訓練することができる。 また, 主翼損失の勾配不連続性に対処する滑らかな主翼損失関数を導入し, l1, l2, 主翼損失などの標準損失関数よりも収束性が向上した。 106-Point Facial Landmark Localizationの第1回グランドチャレンジで提供されたJDランドマークデータセットの実験結果から,リーダボード上の既存手法よりもLOTRの方が優れていることが示唆された。

This paper presents a novel Transformer-based facial landmark localization network named Localization Transformer (LOTR). The proposed framework is a direct coordinate regression approach leveraging a Transformer network to better utilize the spatial information in the feature map. An LOTR model consists of three main modules: 1) a visual backbone that converts an input image into a feature map, 2) a Transformer module that improves the feature representation from the visual backbone, and 3) a landmark prediction head that directly predicts the landmark coordinates from the Transformer's representation. Given cropped-and-aligned face images, the proposed LOTR can be trained end-to-end without requiring any post-processing steps. This paper also introduces the smooth-Wing loss function, which addresses the gradient discontinuity of the Wing loss, leading to better convergence than standard loss functions such as L1, L2, and Wing loss. Experimental results on the JD landmark dataset provided by the First Grand Challenge of 106-Point Facial Landmark Localization indicate the superiority of LOTR over the existing methods on the leaderboard and two recent heatmap-based approaches.
翻訳日:2021-09-22 14:38:36 公開日:2021-09-21
# CondNet:シーンセグメンテーションのための条件付き分類器

CondNet: Conditional Classifier for Scene Segmentation ( http://arxiv.org/abs/2109.10322v1 )

ライセンス: Link先を確認
Changqian Yu and Yuanjie Shao and Changxin Gao and Nong Sang(参考訳) 完全畳み込みネットワーク(FCN)はシーンセグメンテーションのような密集した視覚認識タスクにおいて大きな成功を収めた。 FCNの最終層は通常、各ピクセルをセマンティックラベルに認識するためのグローバル分類器(1x1畳み込み)である。 このグローバルな分類器は,クラス内区別を無視して,準最適結果をもたらす可能性があることを実証的に示す。 本研究では,従来のグローバルな分類器を置き換える条件付き分類器を提案する。 新しい分類器の主な利点は次のとおりである。 (i)クラス内の区別に従い、より密集した認識能力に繋がる。 (II)条件分類器は単純で柔軟であり、予測を改善するためにほぼ任意のFCNアーキテクチャに統合される。 大規模実験により,提案した分類器は,FCNアーキテクチャ上の従来の分類器に対して良好に動作することが示された。 条件付き分類器(condnet)を備えたフレームワークは、2つのデータセットで新たな最先端のパフォーマンスを実現する。 コードとモデルはhttps://git.io/condn etで入手できる。

The fully convolutional network (FCN) has achieved tremendous success in dense visual recognition tasks, such as scene segmentation. The last layer of FCN is typically a global classifier (1x1 convolution) to recognize each pixel to a semantic label. We empirically show that this global classifier, ignoring the intra-class distinction, may lead to sub-optimal results. In this work, we present a conditional classifier to replace the traditional global classifier, where the kernels of the classifier are generated dynamically conditioned on the input. The main advantages of the new classifier consist of: (i) it attends on the intra-class distinction, leading to stronger dense recognition capability; (ii) the conditional classifier is simple and flexible to be integrated into almost arbitrary FCN architectures to improve the prediction. Extensive experiments demonstrate that the proposed classifier performs favourably against the traditional classifier on the FCN architecture. The framework equipped with the conditional classifier (called CondNet) achieves new state-of-the-art performances on two datasets. The code and models are available at https://git.io/CondN et.
翻訳日:2021-09-22 14:38:17 公開日:2021-09-21
# 階層強化学習によるテキストゲームにおける一般化

Generalization in Text-based Games via Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2109.09968v1 )

ライセンス: Link先を確認
Yunqiu Xu, Meng Fang, Ling Chen, Yali Du and Chengqi Zhang(参考訳) 深層強化学習は、人間と人工エージェント間の自然言語コミュニケーションを研究するテキストベースのゲームに有望なアプローチを提供する。 しかし、エージェントは複雑さと様々なトレーニングタスクに依存するため、一般化は依然として大きな課題である。 本稿では,知識グラフベースのrlエージェントを基盤とした階層的フレームワークを導入することで,この問題に対処する。 高レベルでは、メタポリシーが実行され、ゲーム全体をテキストゴールで指定されたサブタスクのセットに分解し、KGに基づいてその1つを選択する。 そして、低レベルのサブポリシーを実行し、目標条件強化学習を行う。 様々な難易度を持つゲームにおいて実験を行い,提案手法が良好な一般化性を有することを示す。

Deep reinforcement learning provides a promising approach for text-based games in studying natural language communication between humans and artificial agents. However, the generalization still remains a big challenge as the agents depend critically on the complexity and variety of training tasks. In this paper, we address this problem by introducing a hierarchical framework built upon the knowledge graph-based RL agent. In the high level, a meta-policy is executed to decompose the whole game into a set of subtasks specified by textual goals, and select one of them based on the KG. Then a sub-policy in the low level is executed to conduct goal-conditioned reinforcement learning. We carry out experiments on games with various difficulty levels and show that the proposed method enjoys favorable generalizability.
翻訳日:2021-09-22 14:37:40 公開日:2021-09-21
# TrOCR:事前学習モデルを用いた変圧器を用いた光文字認識

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models ( http://arxiv.org/abs/2109.10282v1 )

ライセンス: Link先を確認
Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei(参考訳) テキスト認識は文書のデジタル化における長年の研究課題である。 既存のテキスト認識のアプローチは通常、画像理解のためのCNNと、チャレベルテキスト生成のためのRNNに基づいて構築される。 さらに、処理後のステップとして全体の精度を改善するために、他の言語モデルが必要となる。 本稿では,画像理解とワードピースレベルのテキスト生成の両方にトランスフォーマアーキテクチャを利用する,事前学習された画像トランスフォーマとテキストトランスフォーマモデルを用いたエンドツーエンドテキスト認識手法であるtrocrを提案する。 TrOCRモデルは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。 コードとモデルはhttps://aka.ms/TrOCR .orgで公開される。

Text recognition is a long-standing research problem for document digitalization. Existing approaches for text recognition are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a post-processing step. In this paper, we propose an end-to-end text recognition approach with pre-trained image Transformer and text Transformer models, namely TrOCR, which leverages the Transformer architecture for both image understanding and wordpiece-level text generation. The TrOCR model is simple but effective, and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. Experiments show that the TrOCR model outperforms the current state-of-the-art models on both printed and handwritten text recognition tasks. The code and models will be publicly available at https://aka.ms/TrOCR .
翻訳日:2021-09-22 14:37:28 公開日:2021-09-21
# 半教師型医用画像分割のための硬質領域の相互整合性強化

Enforcing Mutual Consistency of Hard Regions for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2109.09960v1 )

ライセンス: Link先を確認
Yicheng Wu, Zongyuan Ge, Donghao Zhang, Minfeng Xu, Lei Zhang, Yong Xia and Jianfei Cai(参考訳) 本稿では,半教師型医用画像分割において,ラベルのないハード領域を効果的に活用するための新しい相互整合ネットワーク(MC-Net+)を提案する。 MC-Net+モデルは、限られたアノテーションで訓練された深層モデルは、画像セグメンテーションタスクのための曖昧な領域(例えば粘着エッジや細い枝)で非常に不確実で容易に分類された予測を出力する傾向にあるという観察によって動機づけられている。 これらの領域レベルの挑戦的なサンプルを活用することで、半教師付きセグメンテーションモデルのトレーニングをより効果的にすることができる。 したがって、提案するmc-net+モデルは2つの新しい設計から成り立っている。 まず、モデルは1つの共有エンコーダと複数の視覚的に異なるデコーダを含む(つまり、異なるアップサンプリング戦略を使用する)。 複数のデコーダの出力の統計的差は、ラベルのないハード領域を示すモデルの不確実性を表すために計算される。 第二に、あるデコーダの確率出力と他のデコーダのソフト擬似ラベルとの間に新たな相互一貫性制約が課される。 このように、一般化された特徴表現を学習するために、トレーニング中のモデルの不確かさを最小限に抑え、不変かつ低エントロピーな結果が得られるようにモデルを強制する。 MC-Net+のセグメンテーション結果と最先端の5つの半教師ありアプローチを3つの公開医療データセットで比較した。 2つの共通の半教師付き設定による拡張実験は、他の既存の方法よりも優れた性能を示し、半教師付き医用画像セグメンテーションの新しい状態を設定する。

In this paper, we proposed a novel mutual consistency network (MC-Net+) to effectively exploit the unlabeled hard regions for semi-supervised medical image segmentation. The MC-Net+ model is motivated by the observation that deep models trained with limited annotations are prone to output highly uncertain and easily mis-classified predictions in the ambiguous regions (e.g. adhesive edges or thin branches) for the image segmentation task. Leveraging these region-level challenging samples can make the semi-supervised segmentation model training more effective. Therefore, our proposed MC-Net+ model consists of two new designs. First, the model contains one shared encoder and multiple sightly different decoders (i.e. using different up-sampling strategies). The statistical discrepancy of multiple decoders' outputs is computed to denote the model's uncertainty, which indicates the unlabeled hard regions. Second, a new mutual consistency constraint is enforced between one decoder's probability output and other decoders' soft pseudo labels. In this way, we minimize the model's uncertainty during training and force the model to generate invariant and low-entropy results in such challenging areas of unlabeled data, in order to learn a generalized feature representation. We compared the segmentation results of the MC-Net+ with five state-of-the-art semi-supervised approaches on three public medical datasets. Extension experiments with two common semi-supervised settings demonstrate the superior performance of our model over other existing methods, which sets a new state of the art for semi-supervised medical image segmentation.
翻訳日:2021-09-22 14:37:13 公開日:2021-09-21
# パラレルグラムの面積比に基づく空中画像の指向性物体検出

Oriented Object Detection in Aerial Images Based on Area Ratio of Parallelogram ( http://arxiv.org/abs/2109.10187v1 )

ライセンス: Link先を確認
Xinyu Yu, Mi Lin, Jiangping Lu, Linlin Ou(参考訳) 回転物体検出は、空中画像中の物体が任意の方向に表示され、通常密集しているため、空中画像において難しい課題である。 かなりの進展が見られたが、既存の回帰に基づく回転検出器は、角周期性や角順序によって直接引き起こされる不連続境界の問題に苦慮している。 本稿では,上記の課題に対処するための簡単なフレームワークを提案する。 5つのパラメータ(中心点、幅、高さ、回転角の座標)や4つの頂点を直接回帰する代わりに、パラレルグラム(ARP)の面積比を用いて、多方向物体を正確に記述する。 具体的には、向き付け対象の最小周長方形の中心点、高さ、幅の座標と、3つの面積比 {\lambda}_1, {\lambda}_2, {\lambda}_3 を回帰する。 これによりオフセット学習が容易になり、オブジェクト指向オブジェクトの角度周期性やラベル点列の問題を回避することができる。 ほぼ水平物体の混同問題をさらに緩和するために,物体とその水平境界箱(最小周長方形)の面積比を用いて,各物体に対する水平方向または指向方向検出の選択を導出する。 また、水平境界箱を3つの面積比で接続し、回転境界箱の精度を向上させる回転効率の高いIoU損失(R-EIoU)を提案する。 HRSC2016,DOTA,UCAS-A ODを含む3つのリモートセンシングデータセットとICDAR2015を含むシーンテキストによる実験結果から,本手法が多くの最先端手法と比較して優れた検出性能を発揮することが示された。 コードとモデルには,論文が公開される予定だ。

Rotated object detection is a challenging task in aerial images as the object in aerial images are displayed in arbitrary directions and usually densely packed. Although considerable progress has been made, there are still challenges that existing regression-based rotation detectors suffer the problem of discontinuous boundaries, which is directly caused by angular periodicity or corner ordering. In this paper, we propose a simple effective framework to address the above challenges. Instead of directly regressing the five parameters (coordinates of the central point, width, height, and rotation angle) or the four vertices, we use the area ratio of parallelogram (ARP) to accurately describe a multi-oriented object. Specifically, we regress coordinates of center point, height and width of minimum circumscribed rectangle of oriented object and three area ratios {\lambda}_1, {\lambda}_2 and {\lambda}_3. This may facilitate the offset learning and avoid the issue of angular periodicity or label points sequence for oriented objects. To further remedy the confusion issue nearly horizontal objects, we employ the area ratio between the object and its horizontal bounding box (minimum circumscribed rectangle) to guide the selection of horizontal or oriented detection for each object. We also propose a rotation efficient IoU loss (R-EIoU) to connect the horizontal bounding box with the three area ratios and improve the accurate for the rotating bounding box. Experimental results on three remote sensing datasets including HRSC2016, DOTA and UCAS-AOD and scene text including ICDAR2015 show that our method achieves superior detection performance compared with many state-of-the-art approaches. The code and model will be coming with paper published.
翻訳日:2021-09-22 14:36:46 公開日:2021-09-21
# NADE: 否定に直面したロバストな逆薬物イベント抽出のためのベンチマーク

NADE: A Benchmark for Robust Adverse Drug Events Extraction in Face of Negations ( http://arxiv.org/abs/2109.10080v1 )

ライセンス: Link先を確認
Simone Scaboro, Beatrice Portelli, Emmanuele Chersoni, Enrico Santus, Giuseppe Serra(参考訳) 逆薬物イベント (ADE) 抽出法は, メディアテキストの大量収集, 薬物関連副作用の言及の検出, 医学的調査の引き金となる。 However, despite the recent ad-vances in NLP, it is currently unknown if suchmodels are robust in face ofnegation, which ispervasive across language varieties.In this paper we evaluate three state-of-the-artsyst ems, showing their fragility against nega-tion, and then we introduce two possible strate-gies to increase the robustness of these mod-els: a pipeline approach, relying on a specificcomponent for negation detection; an augmen-tation of an ADE extraction dataset to artifi-cially create negated samples and further trainthe models.We show that both strategies bring significantincreases in performance, lowering the num-ber of spurious entities predicted by the mod-els. 私たちのデータセットとコードは、このトピックの研究を奨励するために、パブリックに再リリースされます。

Adverse Drug Event (ADE) extraction mod-els can rapidly examine large collections of so-cial media texts, detecting mentions of drug-related adverse reactions and trigger medicalinvestigation s. However, despite the recent ad-vances in NLP, it is currently unknown if suchmodels are robust in face ofnegation, which ispervasive across language varieties.In this paper we evaluate three state-of-the-artsyst ems, showing their fragility against nega-tion, and then we introduce two possible strate-gies to increase the robustness of these mod-els: a pipeline approach, relying on a specificcomponent for negation detection; an augmen-tation of an ADE extraction dataset to artifi-cially create negated samples and further trainthe models.We show that both strategies bring significantincreases in performance, lowering the num-ber of spurious entities predicted by the mod-els. Our dataset and code will be publicly re-leased to encourage research on the topic.
翻訳日:2021-09-22 14:36:18 公開日:2021-09-21
# 文から文書へのゼロショット転送を可能にする多言語文書レベル翻訳

Multilingual Document-Level Translation Enables Zero-Shot Transfer From Sentences to Documents ( http://arxiv.org/abs/2109.10341v1 )

ライセンス: Link先を確認
Biao Zhang, Ankur Bapna, Melvin Johnson, Ali Dabirmoghaddam, Naveen Arivazhagan, Orhan Firat(参考訳) document-level neural machine translation(docnmt)は、クロスセンテンスコンテキストを組み込んだコヒーレントな翻訳を提供する。 しかし、ほとんどの言語ペアでは、並列文は容易に利用できるが、並列文書が不足している。 本稿では, docnmtにおける文脈モデリングが, ゼロショット方式で文から文書へ(すなわち, 学生言語のための並列文書を含まない)転送可能かどうかについて, 多言語モデルを用いて検討する。 単純な結合型docnmtを用いて,文書教師言語数,訓練時の並列文書データスケジュール,並列文書データ状態(元と逆変換)の3つの因子が多言語間転送に与える影響について検討した。 Europarl-7 および IWSLT-10 データセットを用いた実験により,DocNMT の多言語変換の可能性,特に文書固有の指標について検証した。 我々は、より多くの教師言語と適切なデータスケジュールが、より優れた転送品質に寄与することを観察する。 驚いたことに、転送はデータ条件に敏感ではなく、多言語DocNMTはバックトランスレートと真のドキュメントペアで同等のパフォーマンスを達成する。

Document-level neural machine translation (DocNMT) delivers coherent translations by incorporating cross-sentence context. However, for most language pairs there's a shortage of parallel documents, although parallel sentences are readily available. In this paper, we study whether and how contextual modeling in DocNMT is transferable from sentences to documents in a zero-shot fashion (i.e. no parallel documents for student languages) through multilingual modeling. Using simple concatenation-based DocNMT, we explore the effect of 3 factors on multilingual transfer: the number of document-supervised teacher languages, the data schedule for parallel documents at training, and the data condition of parallel documents (genuine vs. backtranslated). Our experiments on Europarl-7 and IWSLT-10 datasets show the feasibility of multilingual transfer for DocNMT, particularly on document-specific metrics. We observe that more teacher languages and adequate data schedule both contribute to better transfer quality. Surprisingly, the transfer is less sensitive to the data condition and multilingual DocNMT achieves comparable performance with both back-translated and genuine document pairs.
翻訳日:2021-09-22 14:36:03 公開日:2021-09-21
# SPLADE v2:情報検索のための疎語彙拡張モデル

SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval ( http://arxiv.org/abs/2109.10086v1 )

ライセンス: Link先を確認
Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane Clinchant(参考訳) ニューラル・インフォメーション・リトリーバル(IR)では、パイプラインランキングにおける最初のレトリバーの改善に向けた研究が進行中である。 効率的な近似近接法を用いて探索を行うための密埋め込みの学習は、うまく機能することが証明されている。 一方、文書やクエリーに対する 'emph{sparse} 表現の学習への関心が高まっており、これは語句の正確なマッチングや逆インデックスの効率など、単語のバッグ・オブ・ワードモデルの望ましい特性から受け継がれている。 最近導入されたSPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。 本稿では, SPLADE 上に構築し, 有効性および効率性に関していくつかの重要な改善点を提案する。 より具体的には、プーリング機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。 また、beirベンチマークの結果を報告する。 全体として、SPLADEは、TREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。

In neural Information Retrieval (IR), ongoing research is directed towards improving the first retriever in ranking pipelines. Learning dense embeddings to conduct retrieval using efficient approximate nearest neighbors methods has proven to work well. Meanwhile, there has been a growing interest in learning \emph{sparse} representations for documents and queries, that could inherit from the desirable properties of bag-of-words models such as the exact matching of terms and the efficiency of inverted indexes. Introduced recently, the SPLADE model provides highly sparse representations and competitive results with respect to state-of-the-art dense and sparse approaches. In this paper, we build on SPLADE and propose several significant improvements in terms of effectiveness and/or efficiency. More specifically, we modify the pooling mechanism, benchmark a model solely based on document expansion, and introduce models trained with distillation. We also report results on the BEIR benchmark. Overall, SPLADE is considerably improved with more than $9$\% gains on NDCG@10 on TREC DL 2019, leading to state-of-the-art results on the BEIR benchmark.
翻訳日:2021-09-22 14:35:43 公開日:2021-09-21
# 深層強化学習における異常検出のための簡易統一フレームワーク

A Simple Unified Framework for Anomaly Detection in Deep Reinforcement Learning ( http://arxiv.org/abs/2109.09889v1 )

ライセンス: Link先を確認
Hongming Zhang, Ke Sun, Bo Xu, Linglong Kong, Martin M\"uller(参考訳) 深層強化学習における異常状態~(RL)は、RL政策の範囲を超えている状態である。 このような状態は、RLシステムの安全性を損なう可能性があり、実際のシナリオでのデプロイメントを妨げます。 本稿では,不規則,逆,外分布を同時に考慮した深部RLアルゴリズムのための簡易かつ効果的な異常検出フレームワークを提案する。 特に、ガウス的仮定の下で各作用クラスのクラス条件分布を取得し、これらの分布に依存して、マハラノビス距離~(MD)とロバスト・マハラノビス距離に基づく不等式と外れ値の判別を行う。 我々は,アタリゲームに対する広範な実験を行い,検出戦略の有効性を検証する。 我々の知る限り、深部RLアルゴリズムにおける統計的および逆方向の異常検出に関する最初の詳細な研究を示す。 この単純な統一異常検出は、現実世界のアプリケーションに安全なrlシステムをデプロイする道を開く。

Abnormal states in deep reinforcement learning~(RL) are states that are beyond the scope of an RL policy. Such states may make the RL system unsafe and impede its deployment in real scenarios. In this paper, we propose a simple yet effective anomaly detection framework for deep RL algorithms that simultaneously considers random, adversarial and out-of-distribution~ (OOD) state outliers. In particular, we attain the class-conditional distributions for each action class under the Gaussian assumption, and rely on these distributions to discriminate between inliers and outliers based on Mahalanobis Distance~(MD) and Robust Mahalanobis Distance. We conduct extensive experiments on Atari games that verify the effectiveness of our detection strategies. To the best of our knowledge, we present the first in-detail study of statistical and adversarial anomaly detection in deep RL algorithms. This simple unified anomaly detection paves the way towards deploying safe RL systems in real-world applications.
翻訳日:2021-09-22 14:34:28 公開日:2021-09-21
# 支払いネットワークにおけるマルチモーダルラーニングによるオンラインマルチホリゾン取引メトリック推定

Online Multi-horizon Transaction Metric Estimation with Multi-modal Learning in Payment Networks ( http://arxiv.org/abs/2109.10020v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Zhongfang Zhuang, Junpeng Wang, Yan Zheng, Javid Ebrahimi, Ryan Mercer, Liang Wang, Wei Zhang(参考訳) 支払い処理ネットワークにおけるエンティティのトランス国家的行動に関連するメトリクスの予測は、システム監視に不可欠である。 過去のトランザクション履歴から集約された多変量時系列は、そのような予測に価値ある洞察を与えることができる。 一般的な多変量時系列予測問題は、製造、医学、昆虫学を含むいくつかの領域でよく研究され、適用されてきた。 しかし、概念ドリフトやマルチモダリティといったデータに関連する新たなドメイン関連課題が浮上し、大規模な決済トランザクションデータを扱うリアルタイム要件も浮上している。 本研究では、支払いトランザクションデータベースにおけるエンティティに関連するトランザクションメトリクスを推定するための多変量時系列予測の問題について検討する。 マルチモーダリティデータからトランザクションメトリクスを推定するために,5つのユニークなコンポーネントを持つモデルを提案する。 これら4つのコンポーネントは相互作用、時間的、スケール、形状の視点を捉え、第5のコンポーネントはこれらの視点を融合させる。 また、データ内のコンセプトドリフトに対処し、リアルタイム要求を満たすためのハイブリッドオフライン/オンライントレーニングスキームを提案する。 この推定モデルとグラフィカルユーザインタフェースを組み合わせることで、プロトタイプトランザクションメトリック推定システムは、支払い処理会社のシステム監視能力を改善するツールとして、その潜在的メリットを実証した。

Predicting metrics associated with entities' transnational behavior within payment processing networks is essential for system monitoring. Multivariate time series, aggregated from the past transaction history, can provide valuable insights for such prediction. The general multivariate time series prediction problem has been well studied and applied across several domains, including manufacturing, medical, and entomology. However, new domain-related challenges associated with the data such as concept drift and multi-modality have surfaced in addition to the real-time requirements of handling the payment transaction data at scale. In this work, we study the problem of multivariate time series prediction for estimating transaction metrics associated with entities in the payment transaction database. We propose a model with five unique components to estimate the transaction metrics from multi-modality data. Four of these components capture interaction, temporal, scale, and shape perspectives, and the fifth component fuses these perspectives together. We also propose a hybrid offline/online training scheme to address concept drift in the data and fulfill the real-time requirements. Combining the estimation model with a graphical user interface, the prototype transaction metric estimation system has demonstrated its potential benefit as a tool for improving a payment processing company's system monitoring capability.
翻訳日:2021-09-22 14:34:13 公開日:2021-09-21
# ディープグラフニューラルネットワークの探索

Search For Deep Graph Neural Networks ( http://arxiv.org/abs/2109.10047v1 )

ライセンス: Link先を確認
Guosheng Feng, Chunnan Wang, Hongzhi Wang(参考訳) 現在のgnn指向のnas法は、浅いアーキテクチャと単純なアーキテクチャを持つ異なるレイヤアグリゲートコンポーネントの探索に焦点を当てている。 GNNアーキテクチャの構造的多様性と深度から得られるメリットをさらに探求するため、ブロックワイズ方式で高性能かつ転送可能な深部GNNモデルを自動生成することを目的とした、新しい2段階探索空間を備えたGNN生成パイプラインを提案する。 一方,オーバースムース(over-smooth)問題を緩和するために,検索空間に複数のフレキシブルな残差接続を組み込んで,基本gnn層にidマッピングを適用する。 探索アルゴリズムでは,epsilon-greedy exploration strategy と reward reshaping を用いたdeep-q-learning を用いる。 実世界のデータセットに対する大規模な実験により、生成したGNNモデルは、既存の手動設計やNASベースのモデルよりも優れています。

Current GNN-oriented NAS methods focus on the search for different layer aggregate components with shallow and simple architectures, which are limited by the 'over-smooth' problem. To further explore the benefits from structural diversity and depth of GNN architectures, we propose a GNN generation pipeline with a novel two-stage search space, which aims at automatically generating high-performance while transferable deep GNN models in a block-wise manner. Meanwhile, to alleviate the 'over-smooth' problem, we incorporate multiple flexible residual connection in our search space and apply identity mapping in the basic GNN layers. For the search algorithm, we use deep-q-learning with epsilon-greedy exploration strategy and reward reshaping. Extensive experiments on real-world datasets show that our generated GNN models outperforms existing manually designed and NAS-based ones.
翻訳日:2021-09-22 14:33:54 公開日:2021-09-21
# 深層学習のための新しい構造的自然勾配降下

A Novel Structured Natural Gradient Descent for Deep Learning ( http://arxiv.org/abs/2109.10100v1 )

ライセンス: Link先を確認
Weihua Liu, Xiabi Liu(参考訳) 自然勾配降下(NGD)はディープニューラルネットワークに深い洞察と強力なツールを提供する。 しかし,ネットワーク構造が大きく複雑になるにつれて,フィッシャー情報行列の計算はますます難しくなっている。 本稿では,ネットワーク再構成による自然勾配最適化の精度向上を主目的とする新しい最適化手法を提案する。 具体的には、ディープニューラルネットワークの構造を再構築し、従来の勾配降下(GD)を用いて新しいネットワークを最適化する。 再構成されたネットワークは、自然勾配降下を伴う最適化方法の効果を達成する。 実験の結果,本手法は深層ネットワークモデルの収束を加速し,gdよりも性能が向上し,計算の単純さを共有できることがわかった。

Natural gradient descent (NGD) provided deep insights and powerful tools to deep neural networks. However the computation of Fisher information matrix becomes more and more difficult as the network structure turns large and complex. This paper proposes a new optimization method whose main idea is to accurately replace the natural gradient optimization by reconstructing the network. More specifically, we reconstruct the structure of the deep neural network, and optimize the new network using traditional gradient descent (GD). The reconstructed network achieves the effect of the optimization way with natural gradient descent. Experimental results show that our optimization method can accelerate the convergence of deep network models and achieve better performance than GD while sharing its computational simplicity.
翻訳日:2021-09-22 14:33:40 公開日:2021-09-21
# 持続型MDPの長期探査

Long-Term Exploration in Persistent MDPs ( http://arxiv.org/abs/2109.10173v1 )

ライセンス: Link先を確認
Leonid Ugadiarov, Alexey Skrynnik, Aleksandr I. Panov(参考訳) 探索は、学習方針の質を制限する強化学習の不可欠な部分である。 ハードエクスプロレーション環境は、巨大な状態空間とスパース報酬によって定義される。 このような条件下では、環境の徹底的な探索は不可能であり、エージェントのトレーニングの成功には多くの相互作用ステップが必要である。 本稿では,訓練中のエージェントが訪問状態へロールバックできる永続的マルコフ決定プロセスの概念を活かしたロールバック展開(rbexplore)と呼ばれる探索手法を提案する。 私たちはアルゴリズムを、報酬やドメイン知識なしで、ペルシャの難解なプリンスでテストします。 ゲームのあらゆる使用レベルにおいて、エージェントは知識に基づく本質的なモチベーションを持つ最先端の好奇心の手法(ICMとRND)で、同等の結果を示す。 RbExploreの実装はhttps://github.com/c ds-mipt/RbExploreにある。

Exploration is an essential part of reinforcement learning, which restricts the quality of learned policy. Hard-exploration environments are defined by huge state space and sparse rewards. In such conditions, an exhaustive exploration of the environment is often impossible, and the successful training of an agent requires a lot of interaction steps. In this paper, we propose an exploration method called Rollback-Explore (RbExplore), which utilizes the concept of the persistent Markov decision process, in which agents during training can roll back to visited states. We test our algorithm in the hard-exploration Prince of Persia game, without rewards and domain knowledge. At all used levels of the game, our agent outperforms or shows comparable results with state-of-the-art curiosity methods with knowledge-based intrinsic motivation: ICM and RND. An implementation of RbExplore can be found at https://github.com/c ds-mipt/RbExplore.
翻訳日:2021-09-22 14:33:31 公開日:2021-09-21
# 事例ベース手続き生成のための形状推論と文法誘導

Shape Inference and Grammar Induction for Example-based Procedural Generation ( http://arxiv.org/abs/2109.10217v1 )

ライセンス: Link先を確認
Gillis Hermans, Thomas Winters, Luc De Raedt(参考訳) デザイナーは、様々な産業におけるコンテンツの自動生成に手続き生成をますます頼りにしている。 これらの技術は、望ましいコンテンツの広範な知識と、そのような手続き的方法の実装方法を必要とする。 サンプルコンテンツから解釈可能な生成モデルを学習するアルゴリズムは、両方の困難を軽減できる。 格子型3次元構築例から形状を推論し,形状文法を誘導する新しい手法であるSIGIを提案する。 この解釈可能な文法は共同創造設計に適している。 Minecraftの建物に応用された形状文法は、どのようにして同じスタイルで新しい建物を自動的に生成できるかを示す。

Designers increasingly rely on procedural generation for automatic generation of content in various industries. These techniques require extensive knowledge of the desired content, and about how to actually implement such procedural methods. Algorithms for learning interpretable generative models from example content could alleviate both difficulties. We propose SIGI, a novel method for inferring shapes and inducing a shape grammar from grid-based 3D building examples. This interpretable grammar is well-suited for co-creative design. Applied to Minecraft buildings, we show how the shape grammar can be used to automatically generate new buildings in a similar style.
翻訳日:2021-09-22 14:33:14 公開日:2021-09-21
# 不確実性ツールボックス:不確実性定量化の評価、可視化、改善のためのオープンソースライブラリ

Uncertainty Toolbox: an Open-Source Library for Assessing, Visualizing, and Improving Uncertainty Quantification ( http://arxiv.org/abs/2109.10254v1 )

ライセンス: Link先を確認
Youngseog Chung, Ian Char, Han Guo, Jeff Schneider, Willie Neiswanger(参考訳) 様々な実世界のタスクにおける機械学習システムのデプロイの増加に伴い、予測の不確かさの正確な定量化の必要性が高まっている。 機械学習における不確実性定量化(uq)の共通の目標は、対象データの真の分布を近似することであるが、uqにおける多くの作業は、使用される評価メトリクスに無関係であり、各メトリックに対する異なる実装は、異なる作業間で直接比較されない数値結果につながる。 これに対処するために、我々は、uqの評価、可視化、改善を支援するオープンソースのpythonライブラリである不確実性ツールボックスを紹介します。 Uncertainty Toolboxは、キー用語の用語集やキーペーパー参照の整理されたコレクションなど、教育的なリソースも提供する。 このツールボックスは、機械学習における不確実性研究の加速と統合に役立ちたい。

With increasing deployment of machine learning systems in various real-world tasks, there is a greater need for accurate quantification of predictive uncertainty. While the common goal in uncertainty quantification (UQ) in machine learning is to approximate the true distribution of the target data, many works in UQ tend to be disjoint in the evaluation metrics utilized, and disparate implementations for each metric lead to numerical results that are not directly comparable across different works. To address this, we introduce Uncertainty Toolbox, an open-source python library that helps to assess, visualize, and improve UQ. Uncertainty Toolbox additionally provides pedagogical resources, such as a glossary of key terms and an organized collection of key paper references. We hope that this toolbox is useful for accelerating and uniting research efforts in uncertainty in machine learning.
翻訳日:2021-09-22 14:32:44 公開日:2021-09-21
# Multiblock-Networks: マルチソースデータのためのコンポーネントベースの手法へのニューラルネットワークアナログ

Multiblock-Networks: A Neural Network Analog to Component Based Methods for Multi-Source Data ( http://arxiv.org/abs/2109.10279v1 )

ライセンス: Link先を確認
Anna Jenul and Stefan Schrunner and Runar Helin and Kristian Hovde Liland and Cecilia Marie Futs{\ae}ther and Oliver Tomic(参考訳) 複数のソースからデータセットの予測モデルをトレーニングすることは、応用機械学習において一般的だが難しい設定である。 近年、モデル解釈が注目されているが、多くのモデリングアプローチは依然としてパフォーマンスに重点を置いている。 機械学習モデルの解釈性をさらに向上するため、我々は、化学計測として知られるコンポーネントベースマルチブロック分析の確立したフレームワークから概念とツールの採用を提案する。 それでも、人工ニューラルネットワークはモデルアーキテクチャの柔軟性が向上し、しばしば予測性能が向上する。 本研究では,主成分回帰と部分最小二乗回帰のマルチブロック変種を含む,コンポーネントベース統計モデルの概念をニューラルネットワークアーキテクチャに転送する手法を提案する。 これにより、ニューラルネットワークの柔軟性とマルチブロック手法におけるブロック関連性を解釈する概念を組み合わせる。 2つのユースケースにおいて、概念を実際に実装する方法を示し、ブロックのない一般的なフィードフォワードニューラルネットワークと、統計的なコンポーネントベースのマルチブロックメソッドの両方と比較する。 この結果から,通常のフィードフォワードニューラルネットワークの性能に適合しながら,基本モデル解釈が可能なマルチブロックネットワークが得られた。

Training predictive models on datasets from multiple sources is a common, yet challenging setup in applied machine learning. Even though model interpretation has attracted more attention in recent years, many modeling approaches still focus mainly on performance. To further improve the interpretability of machine learning models, we suggest the adoption of concepts and tools from the well-established framework of component based multiblock analysis, also known as chemometrics. Nevertheless, artificial neural networks provide greater flexibility in model architecture and thus, often deliver superior predictive performance. In this study, we propose a setup to transfer the concepts of component based statistical models, including multiblock variants of principal component regression and partial least squares regression, to neural network architectures. Thereby, we combine the flexibility of neural networks with the concepts for interpreting block relevance in multiblock methods. In two use cases we demonstrate how the concept can be implemented in practice, and compare it to both common feed-forward neural networks without blocks, as well as statistical component based multiblock methods. Our results underline that multiblock networks allow for basic model interpretation while matching the performance of ordinary feed-forward neural networks.
翻訳日:2021-09-22 14:32:28 公開日:2021-09-21
# IgNet 超高精度畳み込みニューラルネットワーク

IgNet. A Super-precise Convolutional Neural Network ( http://arxiv.org/abs/2109.09939v1 )

ライセンス: Link先を確認
Igor Mackarov(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像の検出と解析に有効な手段として知られている。 そのパワーは基本的に、画像共通特徴を抽出する能力に基づいている。 しかし、独特の不規則な特徴や細部を含む画像が存在する。 子供たちの想像力や個性を反映した珍しい絵のコレクションである。 これらの図面はKeras-TensorFlowによって構築されたCNNを用いて解析された。 同じ問題 — かなり高いレベルで – が新たに開発されたネットワークファミリーであるIgNetで解決された。 図面のカテゴリー的特徴をすべて100%で学習できることが判明した。 回帰タスク(若いアーティストの年齢を学習する)の場合、IgNetは0.4%未満の誤差で実行した。 これらの原則は、比較的単純なネットワークトポロジーでそのような実質的な結果に達することができるignet設計について論じられている。

Convolutional neural networks (CNN) are known to be an effective means to detect and analyze images. Their power is essentially based on the ability to extract out images common features. There exist, however, images involving unique, irregular features or details. Such is a collection of unusual children drawings reflecting the kids imagination and individuality. These drawings were analyzed by means of a CNN constructed by means of Keras-TensorFlow. The same problem - on a significantly higher level - was solved with newly developed family of networks called IgNet that is described in this paper. It proved able to learn by 100 % all the categorical characteristics of the drawings. In the case of a regression task (learning the young artists ages) IgNet performed with an error of no more than 0.4 %. The principles are discussed of IgNet design that made it possible to reach such substantial results with rather simple network topology.
翻訳日:2021-09-22 14:31:40 公開日:2021-09-21
# エージェント・フューチャーの学習条件確率モデルを用いた自動運転車の高速非線形リスク評価

Fast nonlinear risk assessment for autonomous vehicles using learned conditional probabilistic models of agent futures ( http://arxiv.org/abs/2109.09975v1 )

ライセンス: Link先を確認
Ashkan Jasour, Xin Huang, Allen Wang, Brian C. William(参考訳) 本稿では,ディープニューラルネットワーク(dnn)により,他のエージェントの将来を予測する確率的予測が生成される場合に,自律走行車の軌道のリスクを評価する高速非サンプリング手法を提案する。 提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測のための幅広い表現に対処し,シーンコンテキストに条件付けられたエージェントの位置と制御入力の両方を予測する。 エージェント位置のガウス混合モデル(GMM)が学習された場合のリスク評価の問題は,既存の数値手法で任意の精度で迅速に解けることを示す。 エージェント位置の非ガウス混合モデルにおけるリスク評価の問題に対処するため、非線形チェビシェフの不等式と2乗和(SOS)プログラミングを用いてリスクの上限を求める。 これらの手法はリスクの上限を決定するためにエージェント位置の高次統計モーメントのみを必要とする。 エージェント制御入力に対するモデルが位置に対して学習された場合のリスク評価を行うため、非線形運動ダイナミクスを介して不確定な制御入力のモーメントを伝搬し、計画地平線上の不確定な位置の正確なモーメントを得る。 この目的のために,不確定な制御入力の存在下で不確定な位置のモーメントの正確な時間発展を制御する決定論的線形力学系を構築する。 提案手法は,Argoverse および CARLA データセット上で訓練された DNN の現実的予測に基づいて実証され,低確率事象の確率を迅速に評価する上で有効であることが示されている。

This paper presents fast non-sampling based methods to assess the risk for trajectories of autonomous vehicles when probabilistic predictions of other agents' futures are generated by deep neural networks (DNNs). The presented methods address a wide range of representations for uncertain predictions including both Gaussian and non-Gaussian mixture models to predict both agent positions and control inputs conditioned on the scene contexts. We show that the problem of risk assessment when Gaussian mixture models (GMMs) of agent positions are learned can be solved rapidly to arbitrary levels of accuracy with existing numerical methods. To address the problem of risk assessment for non-Gaussian mixture models of agent position, we propose finding upper bounds on risk using nonlinear Chebyshev's Inequality and sums-of-squares (SOS) programming; they are both of interest as the former is much faster while the latter can be arbitrarily tight. These approaches only require higher order statistical moments of agent positions to determine upper bounds on risk. To perform risk assessment when models are learned for agent control inputs as opposed to positions, we propagate the moments of uncertain control inputs through the nonlinear motion dynamics to obtain the exact moments of uncertain position over the planning horizon. To this end, we construct deterministic linear dynamical systems that govern the exact time evolution of the moments of uncertain position in the presence of uncertain control inputs. The presented methods are demonstrated on realistic predictions from DNNs trained on the Argoverse and CARLA datasets and are shown to be effective for rapidly assessing the probability of low probability events.
翻訳日:2021-09-22 14:31:29 公開日:2021-09-21
# 長軸ビズモータタスクの解法のための例駆動型モデルベース強化学習

Example-Driven Model-Based Reinforcement Learning for Solving Long-Horizon Visuomotor Tasks ( http://arxiv.org/abs/2109.10312v1 )

ライセンス: Link先を確認
Bohan Wu, Suraj Nair, Li Fei-Fei, Chelsea Finn(参考訳) そこで,本稿では,長期的ビズモータタスクを完了させるために,原画像から低レベルスキルのレパートリーを学習する問題について検討する。 強化学習(rl)は、短期ホリゾンスキルを自律的に獲得するための有望なアプローチである。 しかし、RLアルゴリズムの焦点は、多段階のタスクを完遂するためにシーケンスできる大きなスキルのレパートリーを学ぶことよりも、これらの個々のスキルの成功に焦点を当てている。 後者は、スキルのエラーが時間とともに複雑になるため、頑丈さと永続性を必要としており、ロボットは1つだけではなく、多くの原始的なスキルをレパートリーに持たなければならない。 そこで本研究では,長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。 EMBRは、学習モデル、批評家、成功分類器を用いて学習と計画を行い、成功分類器はRLの報酬関数と、ロボットが失敗または摂動下でスキルを再試行すべきかどうかを継続的に検出する基盤機構の両方として機能する。 さらに、学習モデルはタスク非依存であり、すべてのスキルからのデータを用いて訓練され、ロボットは複数の異なるプリミティブを効率的に学習することができる。 これらのビズモータ原始的スキルとその関連する事前条件と後条件は、オフザシェルフのシンボルプランナーと直接結合して、ロングホライゾンタスクを完了させることができる。 フランカ・エミカのロボットアームでは,オフィスデスク,ファイルキャビネット,引き出しなど,14の独特な学習的プリミティブを伴い,新しいオブジェクトへの一般化を要求されるような,3つの長期的ビズモータタスクを85%の成功率で完了させることができる。

In this paper, we study the problem of learning a repertoire of low-level skills from raw images that can be sequenced to complete long-horizon visuomotor tasks. Reinforcement learning (RL) is a promising approach for acquiring short-horizon skills autonomously. However, the focus of RL algorithms has largely been on the success of those individual skills, more so than learning and grounding a large repertoire of skills that can be sequenced to complete extended multi-stage tasks. The latter demands robustness and persistence, as errors in skills can compound over time, and may require the robot to have a number of primitive skills in its repertoire, rather than just one. To this end, we introduce EMBR, a model-based RL method for learning primitive skills that are suitable for completing long-horizon visuomotor tasks. EMBR learns and plans using a learned model, critic, and success classifier, where the success classifier serves both as a reward function for RL and as a grounding mechanism to continuously detect if the robot should retry a skill when unsuccessful or under perturbations. Further, the learned model is task-agnostic and trained using data from all skills, enabling the robot to efficiently learn a number of distinct primitives. These visuomotor primitive skills and their associated pre- and post-conditions can then be directly combined with off-the-shelf symbolic planners to complete long-horizon tasks. On a Franka Emika robot arm, we find that EMBR enables the robot to complete three long-horizon visuomotor tasks at 85% success rate, such as organizing an office desk, a file cabinet, and drawers, which require sequencing up to 12 skills, involve 14 unique learned primitives, and demand generalization to novel objects.
翻訳日:2021-09-22 14:31:01 公開日:2021-09-21
# ニューラルネットワーク検証入門

Introduction to Neural Network Verification ( http://arxiv.org/abs/2109.10317v1 )

ライセンス: Link先を確認
Aws Albarghouthi(参考訳) ディープラーニングは、ソフトウェアに対する考え方と、それができることを変えました。 しかし、ディープニューラルネットワークは脆弱で、その振る舞いはしばしば驚きます。 多くの設定において、ニューラルネットワークの安全性、セキュリティ、正確性、堅牢性に関する正式な保証を提供する必要があります。 この本は、形式的検証からニューラルネットワークとディープラーニングに関する推論への適応までの基礎的アイデアを取り上げている。

Deep learning has transformed the way we think of software and what it can do. But deep neural networks are fragile and their behaviors are often surprising. In many settings, we need to provide formal guarantees on the safety, security, correctness, or robustness of neural networks. This book covers foundational ideas from formal verification and their adaptation to reasoning about neural networks and deep learning.
翻訳日:2021-09-22 14:30:25 公開日:2021-09-21
# 有向ネットワークコミュニティ検出のためのスペクトルクラスタリングの一貫性

Consistency of spectral clustering for directed network community detection ( http://arxiv.org/abs/2109.10319v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) 有向ネットワークは生物学、社会学、生理学、計算機科学など様々な分野に現れる。 しかし、現在、ほとんどのネットワーク分析は方向を無視している。 本稿では, 隣接行列の特異分解に基づくスペクトルクラスタリング法を構築し, 有向確率ブロックモデル (disbm) におけるコミュニティを検出する。 疎度パラメータを考慮し、いくつかの温和な条件下で、隠れた列と列のコミュニティを連続的に復元し、次数の異なるスケールで再現可能であることを示す。 列ノードと列ノードの次数不均一性を考慮し,有向次数補正確率ブロックモデル(didcsbm)の理論的枠組みをさらに確立する。 スペクトルクラスタリング法は, 次数不均一性の軽度制約下で, 行クラスタと列クラスタに対して一貫したコミュニティ検出を安定的に行うことを示す。 DiSBMとDiDCSBMの理論的結果は、バランスの取れたクラスタを持つ有向ネットワーク、類似の次数を持つノードを持つ有向ネットワーク、Erd\"os-R\'enyiグラフなど、いくつかの特別な有向ネットワークに革新をもたらす。 さらに,DiDCSBM が DiSBM に退縮した場合に,DiDCSBM の理論的結果は DiSBM と一致する。

Directed networks appear in various areas, such as biology, sociology, physiology and computer science. However, at present, most network analysis ignores the direction. In this paper, we construct a spectral clustering method based on the singular decomposition of the adjacency matrix to detect community in directed stochastic block model (DiSBM). By considering a sparsity parameter, under some mild conditions, we show the proposed approach can consistently recover hidden row and column communities for different scaling of degrees. By considering the degree heterogeneity of both row and column nodes, we further establish a theoretical framework for directed degree corrected stochastic block model (DiDCSBM). We show that the spectral clustering method stably yields consistent community detection for row clusters and column clusters under mild constraints on the degree heterogeneity. Our theoretical results under DiSBM and DiDCSBM provide some innovations on some special directed networks, such as directed network with balanced clusters, directed network with nodes enjoying similar degrees, and the directed Erd\"os-R\'enyi graph. Furthermore, our theoretical results under DiDCSBM are consistent with those under DiSBM when DiDCSBM degenerates to DiSBM.
翻訳日:2021-09-22 14:29:56 公開日:2021-09-21
# 自動走行のための自己監督行動空間予測

Self-Supervised Action-Space Prediction for Automated Driving ( http://arxiv.org/abs/2109.10024v1 )

ライセンス: Link先を確認
Faris Janjo\v{s}, Maxim Dolgov, J. Marius Z\"ollner(参考訳) 情報化された運転決定を行うには、他の車両の軌道の信頼できる予測が必要である。 本稿では,自動運転のための新しい学習型マルチモーダル軌道予測アーキテクチャを提案する。 学習問題をアクセラレーションとステアリングアングルの空間にキャストすることで、運動論的に実現可能な予測を実現します。 さらに、作用多様体の次元性は状態多様体の次元よりも低く、本質的に相関した状態は学習的な方法で取得することがより困難である。 アクション空間予測のために、単純なフィードフォワードアクション空間予測(ffw-asp)アーキテクチャを提案する。 そして、この概念に基づいて、トラジェクトリに加えて将来の環境コンテキストを出力する新しいセルフスーパービジョンアクションスペース予測(SSP-ASP)アーキテクチャを導入する。 自己管理アーキテクチャの鍵となる要素は、観測された行動履歴と過去の文脈特徴に基づいて、将来の文脈特徴が将来の軌道に先立って予測されることである。 提案手法は,都市交差点やラウンドアバウトを含む実世界のデータセット上で評価され,複数の予測指標において,最先端の予測よりも正確な予測を示す。

Making informed driving decisions requires reliable prediction of other vehicles' trajectories. In this paper, we present a novel learned multi-modal trajectory prediction architecture for automated driving. It achieves kinematically feasible predictions by casting the learning problem into the space of accelerations and steering angles -- by performing action-space prediction, we can leverage valuable model knowledge. Additionally, the dimensionality of the action manifold is lower than that of the state manifold, whose intrinsically correlated states are more difficult to capture in a learned manner. For the purpose of action-space prediction, we present the simple Feed-Forward Action-Space Prediction (FFW-ASP) architecture. Then, we build on this notion and introduce the novel Self-Supervised Action-Space Prediction (SSP-ASP) architecture that outputs future environment context features in addition to trajectories. A key element in the self-supervised architecture is that, based on an observed action history and past context features, future context features are predicted prior to future trajectories. The proposed methods are evaluated on real-world datasets containing urban intersections and roundabouts, and show accurate predictions, outperforming state-of-the-art for kinematically feasible predictions in several prediction metrics.
翻訳日:2021-09-22 14:29:17 公開日:2021-09-21
# StereOBJ-1M:6次元オブジェクトポス推定のための大規模ステレオ画像データセット

StereOBJ-1M: Large-scale Stereo Image Dataset for 6D Object Pose Estimation ( http://arxiv.org/abs/2109.10115v1 )

ライセンス: Link先を確認
Xingyu Liu, Shun Iwase, Kris M. Kitani(参考訳) 本稿では,大規模ステレオRGB画像オブジェクトのポーズ推定データセットである$\textbf{StereOBJ-1M}$データセットを提案する。 データセットは、閉塞、対称性、照明や環境の変化といった一般的な課題に加えて、オブジェクトの透明性、透過性、鏡面反射といった課題に対処するように設計されている。 本研究では,近年の深層学習モデルにおいて十分な規模のデータを集めるために,複雑で柔軟な環境でのデータキャプチャを可能にするマルチビュー方式でポーズデータを効率的にアノテートする新しい手法を提案する。 私たちのデータセットには、396Kフレームと、11の異なる環境で構築された183のシーンで記録された18のオブジェクトの1.5Mアノテーションが含まれています。 18のオブジェクトは、8つの対称オブジェクト、7つの透明オブジェクト、8つの反射オブジェクトを含む。 我々はStereOBJ-1Mの2つの最先端ポーズ推定フレームワークを将来の作業のベースラインとしてベンチマークする。 また,複数画像のキーポイント予測から6次元ポーズを計算するためのオブジェクトレベルのポーズ最適化手法を提案する。

We present a large-scale stereo RGB image object pose estimation dataset named the $\textbf{StereOBJ-1M}$ dataset. The dataset is designed to address challenging cases such as object transparency, translucency, and specular reflection, in addition to the common challenges of occlusion, symmetry, and variations in illumination and environments. In order to collect data of sufficient scale for modern deep learning models, we propose a novel method for efficiently annotating pose data in a multi-view fashion that allows data capturing in complex and flexible environments. Fully annotated with 6D object poses, our dataset contains over 396K frames and over 1.5M annotations of 18 objects recorded in 183 scenes constructed in 11 different environments. The 18 objects include 8 symmetric objects, 7 transparent objects, and 8 reflective objects. We benchmark two state-of-the-art pose estimation frameworks on StereOBJ-1M as baselines for future work. We also propose a novel object-level pose optimization method for computing 6D pose from keypoint predictions in multiple images.
翻訳日:2021-09-22 14:28:58 公開日:2021-09-21
# kdfnet: 6次元ポーズ推定のためのキーポイント距離場学習

KDFNet: Learning Keypoint Distance Field for 6D Object Pose Estimation ( http://arxiv.org/abs/2109.10127v1 )

ライセンス: Link先を確認
Xingyu Liu, Shun Iwase, Kris M. Kitani(参考訳) RGB画像から6次元オブジェクトのポーズ推定を行う新しい手法であるKDFNetを提案する。 隠蔽に対処するため,近年,画素ワイド投票による2次元キーポイントのローカライズとポーズ推定のためのパースペクティブ・n・ポイント(PnP)問題の解決が提案されている。 しかし、このような投票プロセスは方向ベースであり、方向交叉が頑健に見つからない長い物体や薄い物体を扱えない。 そこで本研究では,KDF(Keypoint Distance Field)と呼ばれる2次元キーポイント位置の連続表現を提案する。 KDFの各素子は、2Dアレイとして構成され、対応する画像画素と所定の投影された2Dキーポイントとの間の2Dユークリッド距離を記憶する。 完全畳み込みニューラルネットワークを使用して、キーポイント毎にKDFを回帰します。 本研究では,このkdf符号化を用いて距離ベースの投票方式を用いて,円交点をransac方式で計算し,キーポイントを局所化する手法を提案する。 我々は, 広範なアブレーション実験により, フレームワークの設計選択を検証する。 提案手法は,平均ADD(-S)精度50.3%のOcclusion LINEMODデータセットと平均ADD精度75.72%のTODデータセットMugサブセットの最先端性能を実現する。 広汎な実験と可視化により, 閉塞を含む難解なシナリオにおいて, 提案手法が6次元のポーズを頑健に推定できることが実証された。

We present KDFNet, a novel method for 6D object pose estimation from RGB images. To handle occlusion, many recent works have proposed to localize 2D keypoints through pixel-wise voting and solve a Perspective-n-Point (PnP) problem for pose estimation, which achieves leading performance. However, such voting process is direction-based and cannot handle long and thin objects where the direction intersections cannot be robustly found. To address this problem, we propose a novel continuous representation called Keypoint Distance Field (KDF) for projected 2D keypoint locations. Formulated as a 2D array, each element of the KDF stores the 2D Euclidean distance between the corresponding image pixel and a specified projected 2D keypoint. We use a fully convolutional neural network to regress the KDF for each keypoint. Using this KDF encoding of projected object keypoint locations, we propose to use a distance-based voting scheme to localize the keypoints by calculating circle intersections in a RANSAC fashion. We validate the design choices of our framework by extensive ablation experiments. Our proposed method achieves state-of-the-art performance on Occlusion LINEMOD dataset with an average ADD(-S) accuracy of 50.3% and TOD dataset mug subset with an average ADD accuracy of 75.72%. Extensive experiments and visualizations demonstrate that the proposed method is able to robustly estimate the 6D pose in challenging scenarios including occlusion.
翻訳日:2021-09-22 14:28:42 公開日:2021-09-21
# 果実異常の信頼性ロボットモニタリングのための自己教師付き表現学習

Self-supervised Representation Learning for Reliable Robotic Monitoring of Fruit Anomalies ( http://arxiv.org/abs/2109.10135v1 )

ライセンス: Link先を確認
Taeyeong Choi, Owen Would, Adrian Salazar-Gomez, Grzegorz Cielniak(参考訳) データ拡張は、自律ロボットが非定型的なシーンやオブジェクトの自己教師あり識別のために利用可能なデータを完全に活用するための、シンプルで強力なツールである。 定型画像に焦点対象の構造的特異性を任意に埋め込むことにより、これらの成果物を分類することで、異常な視覚的入力を検出するための学習表現のガイダンスを提供することができる。 しかし,本論文では,このような構造に敏感な表現を学習することは,例えば「色」などの異なる視覚的要素によってよりよく認識される,異常(例えば不健康な果実)のクラスに対する準最適アプローチであると論じる。 そこで我々は,ニューラルネットワークモデルに"カラー不規則性"のエンコーディングを学習するための新しいデータ拡張手法として,チャネルランダム化(Channel Randomization)を提案する。 本研究は,(1)異なる果実種における果実異常の同定を一貫して行うための表現をより正確に学習し,(2)色彩学習課題と果実異常検出との正の相関により,学習早期停止のための検証精度をモニターできることを示す。 さらに,移動ロボットから収集した3:5Kのイチゴ画像からなる,新たな異常データセットRiseholme-2021をコミュニティと共有し,アグリ-ロボティクス研究の活発化を図る。

Data augmentation can be a simple yet powerful tool for autonomous robots to fully utilise available data for self-supervised identification of atypical scenes or objects. State-of-the-art augmentation methods arbitrarily embed structural peculiarity in focal objects on typical images so that classifying these artefacts can provide guidance for learning representations for the detection of anomalous visual inputs. In this paper, however, we argue that learning such structure-sensitive representations can be a suboptimal approach to some classes of anomaly (e.g., unhealthy fruits) which are better recognised by a different type of visual element such as "colour". We thus propose Channel Randomisation as a novel data augmentation method for restricting neural network models to learn encoding of "colour irregularity" whilst predicting channel-randomised images to ultimately build reliable fruit-monitoring robots identifying atypical fruit qualities. Our experiments show that (1) the colour-based alternative can better learn representations for consistently accurate identification of fruit anomalies in various fruit species, and (2) validation accuracy can be monitored for early stopping of training due to positive correlation between the colour-learning task and fruit anomaly detection. Moreover, the proposed approach is evaluated on a new anomaly dataset Riseholme-2021, consisting of 3:5K strawberry images collected from a mobile robot, which we share with the community to encourage active agri-robotics research.
翻訳日:2021-09-22 14:28:13 公開日:2021-09-21
# MRIデータに基づく認知低下予測のためのシングルタスク学習とマルチタスク学習の比較

Comparison of single and multitask learning for predicting cognitive decline based on MRI data ( http://arxiv.org/abs/2109.10266v1 )

ライセンス: Link先を確認
Vandad Imani, Mithilesh Prakash, Marzieh Zare and Jussi Tohka(参考訳) アルツハイマー病評価尺度(英: Alzheimer's Disease Assessment Scale-Cognitive subscale、ADAS-Cog)は、認知症の重症度を評価するために設計された神経心理学ツールである。 パーソナライズされたADAS-Cogスコアの変化の予測は、認知症および無リスク集団のタイミング治療介入に役立つ可能性がある。 本研究では,T1強調MRIによるADAS-Cogスコアの変化を予測するために,単タスクとマルチタスクの学習手法を比較した。 機械学習に基づく予測手法であるADAS-Cogが変化するのとは対照的に,基本診断に基づいて対象を階層化し,各群における予測性能を評価した。 実験の結果,各診断群におけるADAS-Cogスコアの変化の予測値と有意な相関が認められ,T1強調MRIはAD連続体全体の認知低下を評価するための予測値を有することが示された。 さらに,MRIの磁場強度差の補正がADAS-Cogスコア予測を改善するかを検討した。 部分最小の正方形領域適応は予測性能をわずかに改善したが、改善は小さかった。 以上より,ADAS-Cogの変化は解剖学的MRIである程度予測できる可能性が示唆された。 本研究により,予測モデル学習の推奨方法は,その単純さと優れた性能から,単タスク正規化線形回帰である。 もっとも効果的な予測モデルのために、すべての被験者グループにトレーニングデータを組み合わせることが重要である。

The Alzheimer's Disease Assessment Scale-Cognitive subscale (ADAS-Cog) is a neuropsychological tool that has been designed to assess the severity of cognitive symptoms of dementia. Personalized prediction of the changes in ADAS-Cog scores could help in timing therapeutic interventions in dementia and at-risk populations. In the present work, we compared single and multitask learning approaches to predict the changes in ADAS-Cog scores based on T1-weighted anatomical magnetic resonance imaging (MRI). In contrast to most machine learning-based prediction methods ADAS-Cog changes, we stratified the subjects based on their baseline diagnoses and evaluated the prediction performances in each group. Our experiments indicated a positive relationship between the predicted and observed ADAS-Cog score changes in each diagnostic group, suggesting that T1-weighted MRI has a predictive value for evaluating cognitive decline in the entire AD continuum. We further studied whether correction of the differences in the magnetic field strength of MRI would improve the ADAS-Cog score prediction. The partial least square-based domain adaptation slightly improved the prediction performance, but the improvement was marginal. In summary, this study demonstrated that ADAS-Cog change could be, to some extent, predicted based on anatomical MRI. Based on this study, the recommended method for learning the predictive models is a single-task regularized linear regression due to its simplicity and good performance. It appears important to combine the training data across all subject groups for the most effective predictive models.
翻訳日:2021-09-22 14:27:45 公開日:2021-09-21
# SAR画像検索のためのホログラフィーによるモーメント構成学習

Homography augumented momentum constrastive learning for SAR image retrieval ( http://arxiv.org/abs/2109.10329v1 )

ライセンス: Link先を確認
Seonho Park, Maciej Rysz, Kathleen M. Dipple and Panos M. Pardalos(参考訳) 深層学習に基づく画像検索はコンピュータビジョンにおいて強調されてきた。 ディープニューラルネットワーク(dnn)によって抽出された表現埋め込みは、画像の意味情報を含むだけでなく、大規模な画像検索タスクも管理できる。 本研究では,画像検索タスクの大規模合成開口レーダ(SAR)を実現するために,ホモグラフィ変換を用いた画像検索手法を提案する。 さらに,ラベル付け手順を必要としないコントラスト学習によって誘導されるDNNのトレーニング手法を提案する。 これにより、大規模なデータセットのトラクタビリティが比較的容易になる可能性がある。 最後に,ポーラリメトリックsar画像データセットについて実験を行い,提案手法の性能検証を行った。

Deep learning-based image retrieval has been emphasized in computer vision. Representation embedding extracted by deep neural networks (DNNs) not only aims at containing semantic information of the image, but also can manage large-scale image retrieval tasks. In this work, we propose a deep learning-based image retrieval approach using homography transformation augmented contrastive learning to perform large-scale synthetic aperture radar (SAR) image search tasks. Moreover, we propose a training method for the DNNs induced by contrastive learning that does not require any labeling procedure. This may enable tractability of large-scale datasets with relative ease. Finally, we verify the performance of the proposed method by conducting experiments on the polarimetric SAR image datasets.
翻訳日:2021-09-22 14:27:18 公開日:2021-09-21
# 非線形システムの制御と同定のための保証ニューラルネットワークアーキテクチャ

Assured Neural Network Architectures for Control and Identification of Nonlinear Systems ( http://arxiv.org/abs/2109.10298v1 )

ライセンス: Link先を確認
James Ferlez and Yasser Shoukry(参考訳) 本稿では、非線形システムを制御するのに十分パラメータ化されていることを保証して、Rectified Linear Unit (ReLU) Neural Network (NN)アーキテクチャ(層数と層数)を自動設計する問題を考察する。 これは現在の技術とは異なり、結果のアーキテクチャに対する保証を提供しない。 さらに,本手法では,基礎となる非線形システムと仕様に関する知識を限定する必要がある。 仕様は、リプシッツ定数に既知の有界なリプシッツ連続コントローラによって満たされると仮定するだけであり、特定のコントローラは知られていない。 この仮定から、仕様を満たす任意のリプシッツ連続コントローラを近似できる連続ピアースアフィン関数(CPWA)を構築するのに必要なアフィン関数の数を制限している。 次に、著者らが最近行ったTLL(Two-Level Lattice)NNアーキテクチャの結果を用いて、このCPWAをNNアーキテクチャに接続し、TLLアーキテクチャは、実現したCPWA関数に存在するアフィン関数の数によってパラメータ化されていることを示した。

In this paper, we consider the problem of automatically designing a Rectified Linear Unit (ReLU) Neural Network (NN) architecture (number of layers and number of neurons per layer) with the assurance that it is sufficiently parametrized to control a nonlinear system; i.e. control the system to satisfy a given formal specification. This is unlike current techniques, which provide no assurances on the resultant architecture. Moreover, our approach requires only limited knowledge of the underlying nonlinear system and specification. We assume only that the specification can be satisfied by a Lipschitz-continuous controller with a known bound on its Lipschitz constant; the specific controller need not be known. From this assumption, we bound the number of affine functions needed to construct a Continuous Piecewise Affine (CPWA) function that can approximate any Lipschitz-continuous controller that satisfies the specification. Then we connect this CPWA to a NN architecture using the authors' recent results on the Two-Level Lattice (TLL) NN architecture; the TLL architecture was shown to be parameterized by the number of affine functions present in the CPWA function it realizes.
翻訳日:2021-09-22 14:26:41 公開日:2021-09-21
# 短文クラスタリングのための表現学習

Representation Learning for Short Text Clustering ( http://arxiv.org/abs/2109.09894v1 )

ライセンス: Link先を確認
Hui Yin, Xiangyu Song, Shuiqiao Yang, Guangyan Huang and Jianxin Li(参考訳) ショートテキストコーパスのスパース,高次元,ノイズ特性のため,効率的な表現学習は短いテキストクラスタリングに不可欠である。 既存の事前学習モデル(word2vecやbertなど)は、従来のbag-of-words(bow)モデルに比べて、より凝縮され低次元で連続的な特徴を持つ短いテキスト表現の表現性を大幅に改善した。 しかし、これらのモデルは一般的な目的のために訓練されており、短文クラスタリングタスクに最適である。 本稿では,教師なしオートエンコーダ(ae)フレームワークを利用して,これらの学習済みテキストモデルに基づく短いテキスト表現を最適化し,最適なクラスタリング性能を実現する2つの手法を提案する。 最初の方法であるStructure Text Network Graph Autoencoder (STN-GAE)では,テキストネットワークを構築することによってコーパス間の構造的テキスト情報を利用して,グラフ畳み込みネットワークをエンコーダとして採用し,テキスト表現学習のための事前訓練されたテキスト機能と融合させる。 ソフトクラスタ割り当てオートエンコーダ(SCA-AE)では、学習したテキスト表現をよりクラスタ化しやすいものにするために、オートエンコーダの潜在空間に追加のソフトクラスタ割り当て制約を適用する。 実験の結果,短文クラスタリングに事前学習したモデルのみを用いる場合,BERTはBoWやWord2vecよりも優れた性能を示すことがわかった。 しかし、事前学習した表現をさらにチューニングする限り、sca-aeのような提案手法はクラスタリング性能を大幅に向上させ、bert単独での精度向上は最大14\%に達する可能性がある。

Effective representation learning is critical for short text clustering due to the sparse, high-dimensional and noise attributes of short text corpus. Existing pre-trained models (e.g., Word2vec and BERT) have greatly improved the expressiveness for short text representations with more condensed, low-dimensional and continuous features compared to the traditional Bag-of-Words (BoW) model. However, these models are trained for general purposes and thus are suboptimal for the short text clustering task. In this paper, we propose two methods to exploit the unsupervised autoencoder (AE) framework to further tune the short text representations based on these pre-trained text models for optimal clustering performance. In our first method Structural Text Network Graph Autoencoder (STN-GAE), we exploit the structural text information among the corpus by constructing a text network, and then adopt graph convolutional network as encoder to fuse the structural features with the pre-trained text features for text representation learning. In our second method Soft Cluster Assignment Autoencoder (SCA-AE), we adopt an extra soft cluster assignment constraint on the latent space of autoencoder to encourage the learned text representations to be more clustering-friendly. We tested two methods on seven popular short text datasets, and the experimental results show that when only using the pre-trained model for short text clustering, BERT performs better than BoW and Word2vec. However, as long as we further tune the pre-trained representations, the proposed method like SCA-AE can greatly increase the clustering performance, and the accuracy improvement compared to use BERT alone could reach as much as 14\%.
翻訳日:2021-09-22 14:25:23 公開日:2021-09-21
# 検索例を用いたカーネル平滑機械翻訳の学習

Learning Kernel-Smoothed Machine Translation with Retrieved Examples ( http://arxiv.org/abs/2109.09991v1 )

ライセンス: Link先を確認
Qingnan Jiang, Mingxuan Wang, Jun Cao, Shanbo Cheng, Shujian Huang and Lei Li(参考訳) ニューラル・マシン・トランスフォーメーション(NMT)モデルは、再トレーニングなしに新しい症例に適応する方法? ニューラルマシン翻訳の成功にもかかわらず、デプロイされたモデルのオンラインアップデートは依然として課題である。 データベースから類似例を検索して翻訳プロセスを導く既存の非パラメトリックアプローチは有望だが、検索した例に過度に適合する傾向にある。 しかし、非パラメトリックメソッドは、取得した例に過剰に適合しがちである。 本稿では,ニューラルネットワークのオンライン翻訳モデルに適用する効果的な手法であるサンプル検索(kster)を用いて,カーネルスムースド翻訳を学ぶことを提案する。 ドメイン適応とマルチドメイン機械翻訳データセットの実験により、KSTERは、高価なリトレーニングなしでも、既存のオンライン適応手法よりも1.1から1.5BLEUのスコアを改善することができた。 コードとトレーニングされたモデルはhttps://github.com/j iangqn/KSTERで公開されている。

How to effectively adapt neural machine translation (NMT) models according to emerging cases without retraining? Despite the great success of neural machine translation, updating the deployed models online remains a challenge. Existing non-parametric approaches that retrieve similar examples from a database to guide the translation process are promising but are prone to overfit the retrieved examples. However, non-parametric methods are prone to overfit the retrieved examples. In this work, we propose to learn Kernel-Smoothed Translation with Example Retrieval (KSTER), an effective approach to adapt neural machine translation models online. Experiments on domain adaptation and multi-domain machine translation datasets show that even without expensive retraining, KSTER is able to achieve improvement of 1.1 to 1.5 BLEU scores over the best existing online adaptation methods. The code and trained models are released at https://github.com/j iangqn/KSTER.
翻訳日:2021-09-22 14:24:55 公開日:2021-09-21
# 否定事例に基づく終端否定解消の評価

Negation-Instance Based Evaluation of End-to-End Negation Resolution ( http://arxiv.org/abs/2109.10013v1 )

ライセンス: Link先を確認
Elizaveta Sineva, Stefan Gr\"unewald, Annemarie Friedrich, Jonas Kuhn(参考訳) 本稿では,cue 検出のサブタスク (例えば "not", "never") とスコープ解像度を含む否定分解のタスクを再検討する。 これまでの共有タスクの文脈では,様々な評価指標が提案されている。 その後の作業は通常、バリエーションやカスタム実装など、さまざまなサブセットを使用し、システム間の意味のある比較を困難にします。 本稿では,言語的視点と下流視点の両方から問題を考察し,否定的解決性を評価するための否定的アプローチについて論じる。 提案した指標は, インスタンス当たりの期待値と一致し, 直感的に解釈可能である。 研究に匹敵し,今後の研究を促進するために,3つの英語コーパス上での否定解決のための最新の最先端システムについて結果を提供し,評価スクリプトの実装を一般公開する。

In this paper, we revisit the task of negation resolution, which includes the subtasks of cue detection (e.g. "not", "never") and scope resolution. In the context of previous shared tasks, a variety of evaluation metrics have been proposed. Subsequent works usually use different subsets of these, including variations and custom implementations, rendering meaningful comparisons between systems difficult. Examining the problem both from a linguistic perspective and from a downstream viewpoint, we here argue for a negation-instance based approach to evaluating negation resolution. Our proposed metrics correspond to expectations over per-instance scores and hence are intuitively interpretable. To render research comparable and to foster future work, we provide results for a set of current state-of-the-art systems for negation resolution on three English corpora, and make our implementation of the evaluation scripts publicly available.
翻訳日:2021-09-22 14:24:40 公開日:2021-09-21
# すべてのコメントが平等ではない:トピック認識モデルからのコメントモデレーションへの洞察

Not All Comments are Equal: Insights into Comment Moderation from a Topic-Aware Model ( http://arxiv.org/abs/2109.10033v1 )

ライセンス: Link先を確認
Elaine Zosa, Ravi Shekhar, Mladen Karan, Matthew Purver(参考訳) 読者コメントのモデレーションは、オンラインニュースプラットフォームにとって大きな問題である。 そこで我々は,クロアチアの新聞のコメントデータセットを用いて,自動モデレーションのためのモデル実験を行った。 分析の結果,モデレーション規則に違反するコメントは共通言語的・主題的特徴を共有しているが,その内容は新聞の各部によって異なることがわかった。 したがって、トピックモデルからセマンティクス機能を分類決定に組み込んだ、トピック認識モデルを構築します。 この結果から,トピック情報はモデルの性能を改善し,正しい出力に対する信頼性を高め,モデルの出力を理解するのに役立つことがわかった。

Moderation of reader comments is a significant problem for online news platforms. Here, we experiment with models for automatic moderation, using a dataset of comments from a popular Croatian newspaper. Our analysis shows that while comments that violate the moderation rules mostly share common linguistic and thematic features, their content varies across the different sections of the newspaper. We therefore make our models topic-aware, incorporating semantic features from a topic model into the classification decision. Our results show that topic information improves the performance of the model, increases its confidence in correct outputs, and helps us understand the model's outputs.
翻訳日:2021-09-22 14:24:26 公開日:2021-09-21
# 事前学習された言語モデルは、あなたについて何を学びますか?

Stepmothers are mean and academics are pretentious: What do pretrained language models learn about you? ( http://arxiv.org/abs/2109.10052v1 )

ライセンス: Link先を確認
Rochelle Choenni, Ekaterina Shutova, Robert van Rooij(参考訳) 本稿では,事前学習された言語モデルを用いて,どのようなステレオタイプ情報を取り込むかを検討する。 本稿では,社会集団のステレオタイプ属性を含む最初のデータセットを提案し,教師なしの方法で事前学習された言語モデルによって符号化されたステレオタイプを導出する手法を提案する。 さらに, 出現するステレオタイプを, より一般化した方法で感情効果を研究する手段として, 基本的な感情として表現することと関連づける。 言語経験による感情やステレオタイプの変化を解析するために,我々の手法をどのように利用できるかを示すために,我々は事例研究としてニュースソースの微調整を用いる。 我々の実験は、異なる社会集団に対する態度がモデルによってどのように異なるか、そして、微調整の段階で感情やステレオタイプがいかに素早く変化するかを明らかにする。

In this paper, we investigate what types of stereotypical information are captured by pretrained language models. We present the first dataset comprising stereotypical attributes of a range of social groups and propose a method to elicit stereotypes encoded by pretrained language models in an unsupervised fashion. Moreover, we link the emergent stereotypes to their manifestation as basic emotions as a means to study their emotional effects in a more generalized manner. To demonstrate how our methods can be used to analyze emotion and stereotype shifts due to linguistic experience, we use fine-tuning on news sources as a case study. Our experiments expose how attitudes towards different social groups vary across models and how quickly emotions and stereotypes can shift at the fine-tuning stage.
翻訳日:2021-09-22 14:24:14 公開日:2021-09-21
# 深層学習による金融ニュース要約の包括的レビュー

A Comprehensive Review on Summarizing Financial News Using Deep Learning ( http://arxiv.org/abs/2109.10118v1 )

ライセンス: Link先を確認
Saurabh Kamal and Sahil Sharma(参考訳) 投資家は、基礎分析、技術分析、定量的分析など、いくつかの要因に応じて投資決定を行う。 投資家が投資決定を行うもう1つの要因は、この研究の唯一の目的であるニュース見出しの感情分析である。 自然言語処理技術は通常、そのような大量のデータを扱うために使われ、そこから貴重な情報を得る。 nlpアルゴリズムは原文を機械が容易に理解し解釈できる数値表現に変換する。 この変換は様々な埋め込み技術を用いて行うことができる。 本研究では,BoW,TF-IDF,Word2Vec ,BERT,GloVe,FastText などの埋め込み技術を用いて,RNNやLSTMなどのディープラーニングモデルに入力する。 本研究の目的は、これらのモデルの性能を評価し、予測に影響を及ぼす重要な要因を特定するための堅牢なモデルを選択することである。 この研究の間には、望ましい結果を得るためにディープリーーミングが適用され、最先端技術よりも精度が向上することが期待された。 モデルを比較してアウトプットをチェックし、どちらがうまくいったかを確認する。

Investors make investment decisions depending on several factors such as fundamental analysis, technical analysis, and quantitative analysis. Another factor on which investors can make investment decisions is through sentiment analysis of news headlines, the sole purpose of this study. Natural Language Processing techniques are typically used to deal with such a large amount of data and get valuable information out of it. NLP algorithms convert raw text into numerical representations that machines can easily understand and interpret. This conversion can be done using various embedding techniques. In this research, embedding techniques used are BoW, TF-IDF, Word2Vec, BERT, GloVe, and FastText, and then fed to deep learning models such as RNN and LSTM. This work aims to evaluate these model's performance to choose the robust model in identifying the significant factors influencing the prediction. During this research, it was expected that Deep Leaming would be applied to get the desired results or achieve better accuracy than the state-of-the-art. The models are compared to check their outputs to know which one has performed better.
翻訳日:2021-09-22 14:23:59 公開日:2021-09-21
# トランスフォーマーはelizaの現代的なバージョンか? フレンチ・オブジェクト・バーブ協定に関する観測

Are Transformers a Modern Version of ELIZA? Observations on French Object Verb Agreement ( http://arxiv.org/abs/2109.10133v1 )

ライセンス: Link先を確認
Bingzhi Li, Guillaume Wisniewski, and Benoit Crabb\'e(参考訳) 多くの最近の研究で、ニューラルネットワークの教師なし文表現が構文情報を符号化し、ニューラルネットワークモデルが動詞とその主題間の一致を予測できることが示されている。 ニューラルネットワークの構文能力を評価する上での欠陥を示唆し, 簡単な表面ヒューリスティックスを用いて, この合意作業において高い精度で達成可能であることを示すことによって, この研究の行を批判的に考察する。 長範囲のフランス語オブジェクトバーブ合意における結果のきめ細かい分析は、LSTMとは対照的に、トランスフォーマーは非自明な文法構造を捉えることができることを示している。

Many recent works have demonstrated that unsupervised sentence representations of neural networks encode syntactic information by observing that neural language models are able to predict the agreement between a verb and its subject. We take a critical look at this line of research by showing that it is possible to achieve high accuracy on this agreement task with simple surface heuristics, indicating a possible flaw in our assessment of neural networks' syntactic ability. Our fine-grained analyses of results on the long-range French object-verb agreement show that contrary to LSTMs, Transformers are able to capture a non-trivial amount of grammatical structure.
翻訳日:2021-09-22 14:23:40 公開日:2021-09-21
# その音はどんなに親しみやすいか? 音響単語埋め込みの言語間表現類似性解析

How Familiar Does That Sound? Cross-Lingual Representational Similarity Analysis of Acoustic Word Embeddings ( http://arxiv.org/abs/2109.10179v1 )

ライセンス: Link先を確認
Badr M. Abdullah, Iuliia Zaitova, Tania Avgustinova, Bernd M\"obius, Dietrich Klakow(参考訳) ニューラルネットワークは未知の言語から音声を"知覚する"のか? モデルの訓練言語(l1)と未知言語(l2)の類型的類似性は、l2音声信号のモデル表現に影響を与えるか? これらの疑問に答えるために,音響単語埋め込み (AWEs) を解析するための表現類似性分析 (RSA) に基づく新しい実験設計を提案する。 まず,類型的類似度の異なるインド・ヨーロッパ7言語で単言語AWEモデルを訓練する。 次に、AWEを用いてネイティブおよび非ネイティブ音声単語処理をシミュレートし、言語間類似性を定量化するためにRSAを用いる。 実験の結果,類型的類似性は,本研究におけるモデルの表現的類似性に影響を与えることがわかった。 さらに,音声処理のモデル化とニューラルネットワークとの言語類似性について検討した。

How do neural networks "perceive" speech sounds from unknown languages? Does the typological similarity between the model's training language (L1) and an unknown language (L2) have an impact on the model representations of L2 speech signals? To answer these questions, we present a novel experimental design based on representational similarity analysis (RSA) to analyze acoustic word embeddings (AWEs) -- vector representations of variable-duration spoken-word segments. First, we train monolingual AWE models on seven Indo-European languages with various degrees of typological similarity. We then employ RSA to quantify the cross-lingual similarity by simulating native and non-native spoken-word processing using AWEs. Our experiments show that typological similarity indeed affects the representational similarity of the models in our study. We further discuss the implications of our work on modeling speech processing and language similarity with neural networks.
翻訳日:2021-09-22 14:23:28 公開日:2021-09-21
# TranslateLocally:ローカルCPU上で動作する高速翻訳

TranslateLocally: Blazing-fast translation running on the local CPU ( http://arxiv.org/abs/2109.10194v1 )

ライセンス: Link先を確認
Nikolay Bogoychev and Jelmer Van der Linde and Kenneth Heafield(参考訳) 毎日何百万人もの人々が、オンライン機械翻訳と引き換えにプライバシーとブラウジングの習慣を犠牲にしている。 機密性要件のある企業や政府は、しばしばオンライン翻訳を禁止したり、ログを無効にするためにプレミアムを支払う。 制御をエンドユーザに戻し,速度を示すために,translatelocalを開発した。 デスクトップやラップトップのcpu上でローカルで動作するtranslatelocalは、10年前のハードウェアでもクラウドライクな翻訳速度と品質を提供する。 オープンソースソフトウェアはMarianをベースにしており、Linux、Windows、macOSで動作する。

Every day, millions of people sacrifice their privacy and browsing habits in exchange for online machine translation. Companies and governments with confidentiality requirements often ban online translation or pay a premium to disable logging. To bring control back to the end user and demonstrate speed, we developed translateLocally. Running locally on a desktop or laptop CPU, translateLocally delivers cloud-like translation speed and quality even on 10 year old hardware. The open-source software is based on Marian and runs on Linux, Windows, and macOS.
翻訳日:2021-09-22 14:23:13 公開日:2021-09-21
# BERTweetFR : フランス語ツイートのための事前学習言語モデルのドメイン適応

BERTweetFR : Domain Adaptation of Pre-Trained Language Models for French Tweets ( http://arxiv.org/abs/2109.10234v1 )

ライセンス: Link先を確認
Yanzhu Guo, Virgile Rennard, Christos Xypolopoulos and Michalis Vazirgiannis(参考訳) BERTweetFRは、フランス語ツイートのための最初の大規模事前訓練言語モデルである。 我々のモデルは,RoBERTaの基本アーキテクチャに従う汎用言語モデルCamemBERTを用いて初期化される。 BERTweetFRは、攻撃性識別と名前付きエンティティ認識の2つのダウンストリームTwitter NLPタスクにおいて、以前の汎用言語モデルよりも優れていた。 攻撃性検出タスクで使用されるデータセットは、まずチームによって作成され、アノテートされ、このような分析データセットのギャップを埋める。 我々は,フランス語ツイートの分析タスクに関する今後の研究を促進すべく,transformersライブラリでモデルを公開する。

We introduce BERTweetFR, the first large-scale pre-trained language model for French tweets. Our model is initialized using the general-domain French language model CamemBERT which follows the base architecture of RoBERTa. Experiments show that BERTweetFR outperforms all previous general-domain French language models on two downstream Twitter NLP tasks of offensiveness identification and named entity recognition. The dataset used in the offensiveness detection task is first created and annotated by our team, filling in the gap of such analytic datasets in French. We make our model publicly available in the transformers library with the aim of promoting future research in analytic tasks for French tweets.
翻訳日:2021-09-22 14:23:05 公開日:2021-09-21
# 説明可能なAIシステムのための人間-AIチャットをブリッジするLingua Francaとしてのシンボル

Symbols as a Lingua Franca for Bridging Human-AI Chasm for Explainable and Advisable AI Systems ( http://arxiv.org/abs/2109.09904v1 )

ライセンス: Link先を確認
Subbarao Kambhampati, Sarath Sreedharan, Mudit Verma, Yantian Zha, Lin Guan(参考訳) 現代のaiシステムの多くの驚くべき力は、しばしば彼ら自身の表現を学ぶにもかかわらず、彼らの不精さと人間と対話する能力の付随する問題に対して大きな不満がある。 ニューロシンボリックアプローチのような代替案が提案されているが、それらが何であるかについてのコンセンサスが不足している。 しばしば2つの独立した動機がある (i)人間とAIの交流のための言語フランカとしての記号 (ii)シンボルを内部推論で使用する(システム生成)抽象化として使用する。 陪審は、AIシステムが一般的な知能を達成するために、内部の推論にシンボルを使う必要があるかどうか、まだ検討中だ。 答えが何であれ、人間とAIの相互作用における(人間の理解可能な)シンボルの必要性は非常に魅力的に思える。 感情と同じように、シンボルは知性そのものにとって全く無意味ではないかもしれないが、AIシステムが人間と対話するためには不可欠だ。 特に、人間設計の多くの領域において、人間は明示的な(象徴的な)知識とアドバイスを提供することに関心を持ち、機械の説明を期待する。 これだけでも、AIシステムは少なくとも象徴的な言葉でI/Oを行う必要がある。 この青空論文では、この視点を論じ、この種の人間とAIの相互作用を可能にするために追求すべき研究の方向性について議論する。

Despite the surprising power of many modern AI systems that often learn their own representations, there is significant discontent about their inscrutability and the attendant problems in their ability to interact with humans. While alternatives such as neuro-symbolic approaches have been proposed, there is a lack of consensus on what they are about. There are often two independent motivations (i) symbols as a lingua franca for human-AI interaction and (ii) symbols as (system-produced) abstractions use in its internal reasoning. The jury is still out on whether AI systems will need to use symbols in their internal reasoning to achieve general intelligence capabilities. Whatever the answer there is, the need for (human-understandabl e) symbols in human-AI interaction seems quite compelling. Symbols, like emotions, may well not be sine qua non for intelligence per se, but they will be crucial for AI systems to interact with us humans--as we can neither turn off our emotions nor get by without our symbols. In particular, in many human-designed domains, humans would be interested in providing explicit (symbolic) knowledge and advice--and expect machine explanations in kind. This alone requires AI systems to at least do their I/O in symbolic terms. In this blue sky paper, we argue this point of view, and discuss research directions that need to be pursued to allow for this type of human-AI interaction.
翻訳日:2021-09-22 14:22:53 公開日:2021-09-21
# 物理に基づく人間の動き推定とビデオからの合成

Physics-based Human Motion Estimation and Synthesis from Videos ( http://arxiv.org/abs/2109.09913v1 )

ライセンス: Link先を確認
Kevin Xie (1 and 2), Tingwu Wang (1 and 2), Umar Iqbal (2), Yunrong Guo (2), Sanja Fidler (1 and 2), Florian Shkurti (1) ((1) University of Toronto, (2) Nvidia)(参考訳) 人間の動き合成は、ロボット工学のグラフィックス、ゲーム、シミュレーション環境において重要な問題である。 既存の方法では、トレーニングのために正確なモーションキャプチャーデータが必要です。 代わりに,より広く利用可能である単眼型rgbビデオから直接,物理的に妥当な人間の運動の生成モデルを学習するためのフレームワークを提案する。 提案手法の核心は,物理的な制約や接触理由を微分可能な方法で強制することにより,不完全な画像に基づくポーズ推定を補正する新しい最適化定式化である。 この最適化により、修正された3Dポーズと動き、および対応する接触力が得られる。 その結果,身体的修正動作はポーズ推定の先行作業よりも有意に優れていた。 これを使って生成モデルを訓練し、将来の動きを合成できます。 我々は,従来の運動学および物理学に基づく手法と比較して,大規模Human3.6mデータセットの定性的および定量的に向上した動き推定,合成品質,物理的妥当性を実証した。 映像から動き合成の学習を可能にすることで, 大規模, 現実的, 多様な動き合成への道を開く。

Human motion synthesis is an important problem with applications in graphics, gaming and simulation environments for robotics. Existing methods require accurate motion capture data for training, which is costly to obtain. Instead, we propose a framework for training generative models of physically plausible human motion directly from monocular RGB videos, which are much more widely available. At the core of our method is a novel optimization formulation that corrects imperfect image-based pose estimations by enforcing physics constraints and reasons about contacts in a differentiable way. This optimization yields corrected 3D poses and motions, as well as their corresponding contact forces. Results show that our physically-corrected motions significantly outperform prior work on pose estimation. We can then use these to train a generative model to synthesize future motion. We demonstrate both qualitatively and quantitatively significantly improved motion estimation, synthesis quality and physical plausibility achieved by our method on the large scale Human3.6m dataset \cite{h36m_pami} as compared to prior kinematic and physics-based methods. By enabling learning of motion synthesis from video, our method paves the way for large-scale, realistic and diverse motion synthesis.
翻訳日:2021-09-22 14:20:14 公開日:2021-09-21
# 農業用マルチドメインFew-Shot学習とデータセット

Multi-Domain Few-Shot Learning and Dataset for Agricultural Applications ( http://arxiv.org/abs/2109.09952v1 )

ライセンス: Link先を確認
Sai Vidyaranya Nuthalapati, Anirudh Tunga(参考訳) 害虫や植物(健康と病気の両方)の自動分類は、収量を改善するために農業において最重要である。 畳み込みニューラルネットワークに基づく従来のディープラーニングモデルは、カテゴリごとに数千のラベル付きサンプルを必要とする。 本研究では、Few-Shot Learning (FSL)を用いて、いくつかのサンプルから学習し、異なる害虫、植物、病気を自動的に分類する方法を提案する。 埋め込みを生成する機能抽出器を学習し、Transformerを使って埋め込みを更新する。 クラス共分散に基づく計量であるマハラノビス距離を用いて、変換された埋め込みと分類される画像の埋め込みとの類似性を計算する。 提案するアーキテクチャを用いて,提案モデルの有効性を示す複数のデータセットについて広範な実験を行った。 モデル全体を包括的に解析するために42の実験を行い、2つのデータセット上の数ショット画像分類ベンチマークで14%と24%のパフォーマンス向上を達成した。 また、実環境下での健康・病原植物の画像を含む新たなFSLデータセットをコンパイルする。 提案したアーキテクチャは農業における既存のFSLアーキテクチャよりも優れており,新たに提案したデータセットに強いベースラインを提供する。

Automatic classification of pests and plants (both healthy and diseased) is of paramount importance in agriculture to improve yield. Conventional deep learning models based on convolutional neural networks require thousands of labeled examples per category. In this work we propose a method to learn from a few samples to automatically classify different pests, plants, and their diseases, using Few-Shot Learning (FSL). We learn a feature extractor to generate embeddings and then update the embeddings using Transformers. Using Mahalanobis distance, a class-covariance-bas ed metric, we then calculate the similarity of the transformed embeddings with the embedding of the image to be classified. Using our proposed architecture, we conduct extensive experiments on multiple datasets showing the effectiveness of our proposed model. We conduct 42 experiments in total to comprehensively analyze the model and it achieves up to 14% and 24% performance gains on few-shot image classification benchmarks on two datasets. We also compile a new FSL dataset containing images of healthy and diseased plants taken in real-world settings. Using our proposed architecture which has been shown to outperform several existing FSL architectures in agriculture, we provide strong baselines on our newly proposed dataset.
翻訳日:2021-09-22 14:19:56 公開日:2021-09-21
# 時間的注意モーメントアライメントを用いたマルチソースビデオ領域適応

Multi-Source Video Domain Adaptation with Temporal Attentive Moment Alignment ( http://arxiv.org/abs/2109.09964v1 )

ライセンス: Link先を確認
Yuecong Xu, Jianfei Yang, Haozhi Cao, Keyu Wu, Min Wu, Rui Zhao, Zhenghua Chen(参考訳) マルチソースドメイン適応(msda)は、現実のシナリオにおいてより実用的なドメイン適応シナリオである。 ソースデータが単一のドメインからサンプリングされ、均一なデータ分布と一致するという、従来のUnsupervised Domain Adaptation (UDA) の仮定を緩和する。 MSDAは、異なるドメインペア間の異なるドメインシフトが存在するため、より難しい。 ビデオを考えるとき、負の転送は時空間の特徴によって誘発され、より困難なマルチソースビデオドメイン適応(MSVDA)問題に定式化できる。 本稿では,空間的特徴量と時間的特徴量の両方を動的に整列させることにより,効果的な特徴伝達を目的とした新しい時間的注意モーメントアライメントネットワーク(taman)を提案する。 タマンはさらに、局所的な分類の信頼度が高く、大域的特徴と局所的な特徴の差が低い支配的ドメイン不変な局所的特徴に対応することによって、強固なグローバルな時間的特徴を構築する。 今後のMSVDA問題の研究を容易にするため,広範囲なMSVDAシナリオを網羅した総合ベンチマークを導入する。 実験により、複数のMSVDAベンチマークで提案したTAMANの優れた性能を示す。

Multi-Source Domain Adaptation (MSDA) is a more practical domain adaptation scenario in real-world scenarios. It relaxes the assumption in conventional Unsupervised Domain Adaptation (UDA) that source data are sampled from a single domain and match a uniform data distribution. MSDA is more difficult due to the existence of different domain shifts between distinct domain pairs. When considering videos, the negative transfer would be provoked by spatial-temporal features and can be formulated into a more challenging Multi-Source Video Domain Adaptation (MSVDA) problem. In this paper, we address the MSVDA problem by proposing a novel Temporal Attentive Moment Alignment Network (TAMAN) which aims for effective feature transfer by dynamically aligning both spatial and temporal feature moments. TAMAN further constructs robust global temporal features by attending to dominant domain-invariant local temporal features with high local classification confidence and low disparity between global and local feature discrepancies. To facilitate future research on the MSVDA problem, we introduce comprehensive benchmarks, covering extensive MSVDA scenarios. Empirical results demonstrate a superior performance of the proposed TAMAN across multiple MSVDA benchmarks.
翻訳日:2021-09-22 14:19:38 公開日:2021-09-21
# ds-net++: cnnとトランスフォーマーの効率的な推論のための動的重みスライシング

DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and Transformers ( http://arxiv.org/abs/2109.10060v1 )

ライセンス: Link先を確認
Changlin Li, Guangrun Wang, Bing Wang, Xiaodan Liang, Zhihui Li and Xiaojun Chang(参考訳) 動的ネットワークは、推論中にアーキテクチャを入力に適応させることで、理論計算の複雑さを低減できる有望な能力を示した。 しかし、実際のランタイムは通常、非効率なスパーシティのため、理論的加速よりも遅れる。 本稿では,ハードウェアに静的かつ連続的に格納されたパラメータをハードウェアに保持し,スパース計算の余分な負担を回避しつつ,入力に対するネットワークパラメータの一部を適応的にスライスする,動的ウェイトスライシングというハードウェア効率のよい動的推論方式を提案する。 このスキームに基づいて,CNNのフィルタ数とCNNと変換器の多重次元をそれぞれ入力依存で調整し,動的スライス可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。 サブネットワークの汎用性とルーティングの公平性を確保するために,インプレースブートストラップ(ib),マルチビュー一貫性(mvco),サンドウィッチゲートスパーシフィケーション(sgs)といったトレーニング技術を用いて,スーパーネットとゲートを分離してトレーニングする2段階最適化方式を提案する。 4つのデータセットと3つの異なるネットワークアーキテクチャに関する広範囲な実験により、この手法は最先端の静的および動的モデル圧縮手法を6.6%も上回っています。 通常、DS-Net++はMobileNet、ResNet-50、Vision Transformer上で2-4倍の計算削減と1.62倍のリアルタイムアクセラレーションを実現し、ImageNet上では最小の精度低下(0.1-0.3%)となる。 コードリリース:https://github.com/ changlin31/DS-Net

Dynamic networks have shown their promising capability in reducing theoretical computation complexity by adapting their architectures to the input during inference. However, their practical runtime usually lags behind the theoretical acceleration due to inefficient sparsity. Here, we explore a hardware-efficient dynamic inference regime, named dynamic weight slicing, which adaptively slice a part of network parameters for inputs with diverse difficulty levels, while keeping parameters stored statically and contiguously in hardware to prevent the extra burden of sparse computation. Based on this scheme, we present dynamic slimmable network (DS-Net) and dynamic slice-able network (DS-Net++) by input-dependently adjusting filter numbers of CNNs and multiple dimensions in both CNNs and transformers, respectively. To ensure sub-network generality and routing fairness, we propose a disentangled two-stage optimization scheme with training techniques such as in-place bootstrapping (IB), multi-view consistency (MvCo) and sandwich gate sparsification (SGS) to train supernet and gate separately. Extensive experiments on 4 datasets and 3 different network architectures demonstrate our method consistently outperforms state-of-the-art static and dynamic model compression methods by a large margin (up to 6.6%). Typically, DS-Net++ achieves 2-4x computation reduction and 1.62x real-world acceleration over MobileNet, ResNet-50 and Vision Transformer, with minimal accuracy drops (0.1-0.3%) on ImageNet. Code release: https://github.com/c hanglin31/DS-Net
翻訳日:2021-09-22 14:19:18 公開日:2021-09-21
# PDFNet:都市シーンセグメンテーションのためのポイントワイドDense Flow Network

PDFNet: Pointwise Dense Flow Network for Urban-Scene Segmentation ( http://arxiv.org/abs/2109.10083v1 )

ライセンス: Link先を確認
Venkata Satya Sai Ajay Daliparthi(参考訳) 近年では、Deep Convolutional Neural Network (CNN) を特徴エンコーダ(またはバックボーン)として使用することが、コンピュータビジョン手法において最もよく見られるアーキテクチャパターンであり、セマンティックセグメンテーションは例外ではない。 このアーキテクチャパターンの主な欠点は次の2つです。 (i) ネットワークは、壁、フェンス、ポール、信号機、交通標識、自転車などの小さなクラスを捉えられず、自動運転車が正確な判断を下すのに不可欠である。 (II) ネットワークの深さが任意に増加するため, ネットワークは, 重大ラベル付きデータと追加の正規化技術が収束し, 過度に適合するリスクを防止する必要がある。 正規化技術は最小限のコストで提供されるが、ラベル付きデータの収集は高価で面倒なプロセスである。 本稿では,この2つの欠点に,ポイントワイド高密度フローネットワーク(PDFNet)という新しい軽量アーキテクチャを提案する。 PDFNetでは、ネットワークのすべての部分へのスムーズな勾配流を可能にするために、密集、残留、複数ショートカット接続を使用します。 CityscapesとCamVidベンチマークの広範な実験により、我々の手法は小さなクラスや少数のデータレシエーションにおいて、ベースラインを著しく上回ることを示した。 さらに,本手法は,都市景観からkittiデータセットへ評価したトレーニング分布サンプルの分類において,かなりの性能を発揮する。

In recent years, using a deep convolutional neural network (CNN) as a feature encoder (or backbone) is the most commonly observed architectural pattern in several computer vision methods, and semantic segmentation is no exception. The two major drawbacks of this architectural pattern are: (i) the networks often fail to capture small classes such as wall, fence, pole, traffic light, traffic sign, and bicycle, which are crucial for autonomous vehicles to make accurate decisions. (ii) due to the arbitrarily increasing depth, the networks require massive labeled data and additional regularization techniques to converge and to prevent the risk of over-fitting, respectively. While regularization techniques come at minimal cost, the collection of labeled data is an expensive and laborious process. In this work, we address these two drawbacks by proposing a novel lightweight architecture named point-wise dense flow network (PDFNet). In PDFNet, we employ dense, residual, and multiple shortcut connections to allow a smooth gradient flow to all parts of the network. The extensive experiments on Cityscapes and CamVid benchmarks demonstrate that our method significantly outperforms baselines in capturing small classes and in few-data regimes. Moreover, our method achieves considerable performance in classifying out-of-the training distribution samples, evaluated on Cityscapes to KITTI dataset.
翻訳日:2021-09-22 14:18:44 公開日:2021-09-21
# Geometric-Aware Adversarial Augmentationによる3Dポイントクラウドの補完

3D Point Cloud Completion with Geometric-Aware Adversarial Augmentation ( http://arxiv.org/abs/2109.10161v1 )

ライセンス: Link先を確認
Mengxi Wu, Hao Huang, Yi Fang(参考訳) 自動運転や他のロボティクスアプリケーションにおける3Dセンサーの普及に伴い、新しいニューラルネットワークアーキテクチャの設計に焦点が当てられている。 しかし、点雲の分類や再構成とは異なり、3次元点雲の完備化における逆転サンプルの役割はほとんど研究されていない。 本研究では,3Dポイントクラウド完了タスクにおけるニューラルネットワークの性能向上を図ることを目的とした。 本稿では, クリーンサンプルと逆サンプルの両方の性能を両立させる新しい手法を提案する。 PGD-k攻撃とは対照的に, この手法では, 幾何学的特徴をクリーンな試料に保持し, 外れ値が少ない対向サンプルを生成する。 特に,各入力点に対する逆摂動を制限するために主方向を用いる。 主方向の平均方向の勾配成分を対向摂動とする。 また,最小曲率方向を用いた場合の効果についても検討した。 また,攻撃強度蓄積法と補助バッチ正規化法を適用し,トレーニングプロセスを高速化し,クリーン試料と逆試料の分布ミスマッチを緩和する。 実験の結果,シェープネットデータセットにおけるpcnの性能を効果的に向上させることが得られた。

With the popularity of 3D sensors in self-driving and other robotics applications, extensive research has focused on designing novel neural network architectures for accurate 3D point cloud completion. However, unlike in point cloud classification and reconstruction, the role of adversarial samples in3D point cloud completion has seldom been explored. In this work, we show that training with adversarial samples can improve the performance of neural networks on 3D point cloud completion tasks. We propose a novel approach to generate adversarial samples that benefit both the performance of clean and adversarial samples. In contrast to the PGD-k attack, our method generates adversarial samples that keep the geometric features in clean samples and contain few outliers. In particular, we use principal directions to constrain the adversarial perturbations for each input point. The gradient components in the mean direction of principal directions are taken as adversarial perturbations. In addition, we also investigate the effect of using the minimum curvature direction. Besides, we adopt attack strength accumulation and auxiliary Batch Normalization layers method to speed up the training process and alleviate the distribution mismatch between clean and adversarial samples. Experimental results show that training with the adversarial samples crafted by our method effectively enhances the performance of PCN on the ShapeNet dataset.
翻訳日:2021-09-22 14:18:17 公開日:2021-09-21
# SemCal: ニューラルネットワークを用いた意味的LiDARカメラキャリブレーション

SemCal: Semantic LiDAR-Camera Calibration using Neural MutualInformation Estimator ( http://arxiv.org/abs/2109.10270v1 )

ライセンス: Link先を確認
Peng Jiang, Philip Osteen, and Srikanth Saripalli(参考訳) 本稿では,セマンティック情報を用いたLiDARとカメラシステムのための,自動的,無目標,外在的キャリブレーションアルゴリズムSemCalを提案する。 本研究では,各センサ計測から抽出した意味情報の相互情報(MI)をニューラルネットワークで推定し,セマンティックレベルのデータアソシエーションを容易にする。 LiDAR投影点に基づくカメラ計測から,$se(3)$変換の行列指数式とカーネルベースサンプリング法を用いて,勾配に基づく最適化手法をサポートする新たな微分対象関数として,LiDAR-Cameraキャリブレーション問題を定式化することができる。 また,2次元miベース画像登録とpnpソルバを用いた意味的初期校正手法を提案する。 性能評価のために,本手法のロバスト性を示し,合成データセットを用いて精度を定量的に解析する。 また,都市データセット (KITTI360) とオフロードデータセット (RELLIS-3D) のベンチマークデータセットを手書きの地上真実ラベルと最先端のディープラーニングモデルによって予測されたラベルを用いて定性的に評価し,最近の比較校正手法よりも改善した。

This paper proposes SemCal: an automatic, targetless, extrinsic calibration algorithm for a LiDAR and camera system using semantic information. We leverage a neural information estimator to estimate the mutual information (MI) of semantic information extracted from each sensor measurement, facilitating semantic-level data association. By using a matrix exponential formulation of the $se(3)$ transformation and a kernel-based sampling method to sample from camera measurement based on LiDAR projected points, we can formulate the LiDAR-Camera calibration problem as a novel differentiable objective function that supports gradient-based optimization methods. We also introduce a semantic-based initial calibration method using 2D MI-based image registration and Perspective-n-Point (PnP) solver. To evaluate performance, we demonstrate the robustness of our method and quantitatively analyze the accuracy using a synthetic dataset. We also evaluate our algorithm qualitatively on an urban dataset (KITTI360) and an off-road dataset (RELLIS-3D) benchmark datasets using both hand-annotated ground truth labels as well as labels predicted by the state-of-the-art deep learning models, showing improvement over recent comparable calibration approaches.
翻訳日:2021-09-22 14:17:55 公開日:2021-09-21
# 英語から信号時論理へ

From English to Signal Temporal Logic ( http://arxiv.org/abs/2109.10294v1 )

ライセンス: Link先を確認
Jie He, Ezio Bartocci, Dejan Ni\v{c}kovi\'c, Haris Isakovic and Radu Grosu(参考訳) 形式的手法は複雑なシステムの設計と分析に非常に強力なツールと技術を提供する。 しかし、形式的な方法には広範な専門知識と急な学習曲線が必要であるという広く受け入れられている信念のために、その実践的な応用は限られている。 論理公式の形で正しい形式仕様を書くことは、依然として困難で誤りやすい課題であると考えられている。 本稿では,自由英語文として与えられた非公式要求の翻訳のためのツールと技術であるdeepstlを,産学と産学の先進的な研究機関で使用されているサイバー物理システムのための形式的仕様言語であるsignal temporal logic(stl)へ導入する。 このような翻訳者を考案する上での大きな課題は、公に利用可能な非公式な要件と公式な仕様の欠如である。 この課題に対処するための2段階のワークフローを提案する。 まず文法に基づく合成データの生成手法を設計し、各出力はランダムなSTL式とその関連する英訳の集合である。 2番目のステップでは、最先端のトランスフォーマーベースのニューラル翻訳技術を用いて、英語からSTLへの正確な注意翻訳を訓練する。 実験の結果,高度に訓練された英語要求のパターンに対して高い翻訳品質が示され,より複雑な翻訳タスクを処理できるように拡張できる可能性が示唆された。

Formal methods provide very powerful tools and techniques for the design and analysis of complex systems. Their practical application remains however limited, due to the widely accepted belief that formal methods require extensive expertise and a steep learning curve. Writing correct formal specifications in form of logical formulas is still considered to be a difficult and error prone task. In this paper we propose DeepSTL, a tool and technique for the translation of informal requirements, given as free English sentences, into Signal Temporal Logic (STL), a formal specification language for cyber-physical systems, used both by academia and advanced research labs in industry. A major challenge to devise such a translator is the lack of publicly available informal requirements and formal specifications. We propose a two-step workflow to address this challenge. We first design a grammar-based generation technique of synthetic data, where each output is a random STL formula and its associated set of possible English translations. In the second step, we use a state-of-the-art transformer-based neural translation technique, to train an accurate attentional translator of English to STL. The experimental results show high translation quality for patterns of English requirements that have been well trained, making this workflow promising to be extended for processing more complex translation tasks.
翻訳日:2021-09-22 14:17:29 公開日:2021-09-21
# 対向防御のための対向騒音のモデル化

Modelling Adversarial Noise for Adversarial Defense ( http://arxiv.org/abs/2109.09901v1 )

ライセンス: Link先を確認
Dawei Zhou, Nannan Wang, Tongliang Liu, Bo Han(参考訳) ディープニューラルネットワークは敵の雑音に弱いことが示されており、敵の攻撃に対する防御の開発を促進する。 伝統的に、敵の防御は、敵のノイズを取り除くために敵の例を直接利用するか、敵の強固なターゲットモデルを訓練することに集中する。 本稿では, 逆ラベルを用いたラベル空間の遷移関係を学習し, 逆ラベルの精度を向上させるために, 逆データと自然データの関係が, 逆データから清潔なデータを推測し, 最終的な正しい予測を得るのに役立つことを動機とする。 具体的には、逆ラベルと真ラベルを関連付ける遷移行列を導入する。 遷移行列を利用することで、逆ラベルから直接クリーンラベルを推測できる。 そこで,提案するディープニューラルネットワーク(すなわちトランジッションネットワーク)を用いて,逆雑音からインスタンス依存の遷移行列をモデル化する。 さらに、最適性能を達成するために、ターゲットモデルと遷移ネットワークの連立対向訓練を行う。 ベンチマークデータセットの実証評価により,本手法は最先端手法と比較して,逆方向の精度を著しく向上できることが示された。

Deep neural networks have been demonstrated to be vulnerable to adversarial noise, promoting the development of defenses against adversarial attacks. Traditionally, adversarial defenses typically focus on directly exploiting adversarial examples to remove adversarial noise or train an adversarially robust target model. Motivated by that the relationship between adversarial data and natural data can help infer clean data from adversarial data to obtain the final correct prediction, in this paper, we study to model adversarial noise to learn the transition relationship in the label space for using adversarial labels to improve adversarial accuracy. Specifically, we introduce a transition matrix to relate adversarial labels and true labels. By exploiting the transition matrix, we can directly infer clean labels from adversarial labels. Then, we propose to employ a deep neural network (i.e., transition network) to model the instance-dependent transition matrix from adversarial noise. In addition, we conduct joint adversarial training on the target model and the transition network to achieve optimal performance. Empirical evaluations on benchmark datasets demonstrate that our method could significantly improve adversarial accuracy in comparison to state-of-the-art methods.
翻訳日:2021-09-22 14:17:07 公開日:2021-09-21
# トレーサブルマトリックス活性化関数を用いたニューラルネットワーク

Neural networks with trainable matrix activation functions ( http://arxiv.org/abs/2109.09948v1 )

ライセンス: Link先を確認
Zhengqi Liu and Yuwen Li and Ludmil Zikatanov(参考訳) ニューラルネットワークのトレーニングプロセスは通常、線形変換の重みとバイアスパラメータを最適化するが、非線形活性化関数は事前に指定され固定されている。 本研究は、エントリをreluから一般化した行列活性化関数を構築するための体系的アプローチを展開する。 この活性化はスカラー乗算と比較のみを用いた行列ベクトル乗法に基づいている。 提案する活性化関数は、重みとバイアスベクトルと共に訓練されるパラメータに依存する。 このアプローチに基づくニューラルネットワークはシンプルで効率的であり、数値実験で堅牢であることが示されている。

The training process of neural networks usually optimize weights and bias parameters of linear transformations, while nonlinear activation functions are pre-specified and fixed. This work develops a systematic approach to constructing matrix activation functions whose entries are generalized from ReLU. The activation is based on matrix-vector multiplications using only scalar multiplications and comparisons. The proposed activation functions depend on parameters that are trained along with the weights and bias vectors. Neural networks based on this approach are simple and efficient and are shown to be robust in numerical experiments.
翻訳日:2021-09-22 14:16:46 公開日:2021-09-21
# 実用的なMLタスクにおける弾性重み付けの安定化とニューラルネットワークプルーニングにおける重み付け

Stabilizing Elastic Weight Consolidation method in practical ML tasks and using weight importances for neural network pruning ( http://arxiv.org/abs/2109.10021v1 )

ライセンス: Link先を確認
Alexey Kutalev and Alisa Lapina(参考訳) 本稿では, 弾性重み密着法の実用的応用の特徴について述べる。 ここでは,完全連結層と畳み込み層を有するネットワークに適用する際の重み付けの重要性を計算するための既知の手法をより厳密に比較する。 また,畳み込み層と自己付着層を有する多層ニューラルネットワークにおいて弾性重み和法を適用する際に生じる問題点を指摘し,これらの問題を克服する方法を提案する。 さらに、ニューラルネットワークのプルーニングタスクにおいて、様々な種類の重み付けが重要であるという興味深い事実に気づきます。

This paper is devoted to the features of the practical application of Elastic Weight Consolidation method. Here we will more rigorously compare the known methodologies for calculating the importance of weights when applied to networks with fully connected and convolutional layers. We will also point out the problems that arise when applying the Elastic Weight Consolidation method in multilayer neural networks with convolutional layers and self-attention layers, and propose method to overcome these problems. In addition, we will notice an interesting fact about the use of various types of weight importance in the neural network pruning task.
翻訳日:2021-09-22 14:16:38 公開日:2021-09-21
# グラフ描画のためのグラフニューラルネットワーク

Graph Neural Networks for Graph Drawing ( http://arxiv.org/abs/2109.10061v1 )

ライセンス: Link先を確認
Matteo Tiezzi, Gabriele Ciravegna and Marco Gori(参考訳) グラフ描画技術はここ数年,ノードリンクレイアウトを美観的に表現する目的で開発されてきた。 近年、微分可能損失関数の雇用は、勾配降下および関連する最適化アルゴリズムの大量使用への道を開いた。 本稿では,効率良く複雑な地図を構築するために,神経計算に依存するグラフニューラルネットワーク(gnd)の開発のための新しい枠組みを提案する。 GNDはグラフニューラルネットワーク(GNN)であり、グラフ描画で一般的に使用されるような、与えられた損失関数によって学習プロセスを駆動することができる。 さらに,このメカニズムは,交差エッジの最小化などの美的特徴を表現する監督ヒントに基づいて,フィードフォワードニューラルネットワークによって計算された損失関数によって導出可能であることを示す。 この文脈では、GNNは位置的特徴によって良好にリッチ化され、非ラベルの頂点にも対応できることを示す。 本稿では,エッジクロスのための損失関数を構築し,提案フレームワークの下で動作している異なるGNNモデル間の定量的,質的な比較を行う。

Graph Drawing techniques have been developed in the last few years with the purpose of producing aesthetically pleasing node-link layouts. Recently, the employment of differentiable loss functions has paved the road to the massive usage of Gradient Descent and related optimization algorithms. In this paper, we propose a novel framework for the development of Graph Neural Drawers (GND), machines that rely on neural computation for constructing efficient and complex maps. GND are Graph Neural Networks (GNNs) whose learning process can be driven by any provided loss function, such as the ones commonly employed in Graph Drawing. Moreover, we prove that this mechanism can be guided by loss functions computed by means of Feedforward Neural Networks, on the basis of supervision hints that express beauty properties, like the minimization of crossing edges. In this context, we show that GNNs can nicely be enriched by positional features to deal also with unlabelled vertexes. We provide a proof-of-concept by constructing a loss function for the edge-crossing and provide quantitative and qualitative comparisons among different GNN models working under the proposed framework.
翻訳日:2021-09-22 14:16:29 公開日:2021-09-21
# DeepTimeAnomalyViz: 産業用時系列のディープラーニング異常検出結果の可視化と後処理ツール

DeepTimeAnomalyViz: A Tool for Visualizing and Post-processing Deep Learning Anomaly Detection Results for Industrial Time-Series ( http://arxiv.org/abs/2109.10082v1 )

ライセンス: Link先を確認
B{\l}a\.zej Leporowski, Casper Hansen, Alexandros Iosifidis(参考訳) 産業プロセスは、時系列データを生成する多数のセンサーによって監視される。 Deep Learningは、異常の防止と効率の向上に役立つ異常検出方法を作成することができる。 しかし、そのようなソリューションを作成するのは複雑な作業であり、推論速度、利用可能なデータ量、センサーの数など多くの要素が、そのような実装の実現可能性に影響を与える。 DeTAVIZ インタフェースは Web ブラウザをベースとした可視化ツールで,特定の問題における DL ベースの異常検出の実現可能性の迅速な探索と評価を行う。 事前トレーニングされたモデルとシミュレーション結果のプールによって、DeTAVIZは、ユーザが複数のポスト処理オプションを簡単かつ迅速に繰り返し、異なるモデルを比較し、選択したメトリックに対して手動で最適化できる。

Industrial processes are monitored by a large number of various sensors that produce time-series data. Deep Learning offers a possibility to create anomaly detection methods that can aid in preventing malfunctions and increasing efficiency. But creating such a solution can be a complicated task, with factors such as inference speed, amount of available data, number of sensors, and many more, influencing the feasibility of such implementation. We introduce the DeTAVIZ interface, which is a web browser based visualization tool for quick exploration and assessment of feasibility of DL based anomaly detection in a given problem. Provided with a pool of pretrained models and simulation results, DeTAVIZ allows the user to easily and quickly iterate through multiple post processing options and compare different models, and allows for manual optimisation towards a chosen metric.
翻訳日:2021-09-22 14:16:12 公開日:2021-09-21
# AutoGCL:学習可能なビュージェネレータによるグラフコントラスト学習

AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators ( http://arxiv.org/abs/2109.10259v1 )

ライセンス: Link先を確認
Yihang Yin, Qingzhong Wang, Siyu Huang, Haoyi Xiong, Xiang Zhang(参考訳) コントラスト学習はグラフ表現学習に広く適用されており、ビュージェネレータは効果的なコントラストサンプルを生成する上で重要な役割を果たす。 既存のコントラスト学習手法の多くは、例えばノードのドロップやエッジの摂動といった定義済みのビュー生成手法を採用しており、通常は入力データに適応できない。 この問題に対処するため,本稿ではAutomated Graph Contrastive Learning(AutoGCL)という新しいフレームワークを提案する。 具体的には、autogclは学習可能なグラフビュー生成器のセットを自動拡張戦略で編成し、各グラフビュー生成器は入力によって条件付けられたグラフの確率分布を学習する。 AutoGCLのグラフビュージェネレータは、全ての対照的なサンプルの生成において、元のグラフの最も代表的な構造を保っているが、オート拡張は、対照的な学習手順全体に適切な拡張分散を導入するためのポリシーを学ぶ。 さらに、AutoGCLは学習可能なビュージェネレータ、グラフエンコーダ、分類器をエンドツーエンドで訓練するための共同トレーニング戦略を採用しており、トポロジ的不均一性は対照的なサンプルの生成において意味的な類似性をもたらす。 半教師付き学習,教師なし学習,移動学習に関する広範な実験は,グラフコントラスト学習における最先端技術よりもAutoGCLフレームワークの方が優れていることを示す。 さらに,学習可能なビュー生成器は,既存のビュー生成手法と比較して,よりコンパクトで意味的に意味のあるコントラストサンプルを提供できることを確認した。

Contrastive learning has been widely applied to graph representation learning, where the view generators play a vital role in generating effective contrastive samples. Most of the existing contrastive learning methods employ pre-defined view generation methods, e.g., node drop or edge perturbation, which usually cannot adapt to input data or preserve the original semantic structures well. To address this issue, we propose a novel framework named Automated Graph Contrastive Learning (AutoGCL) in this paper. Specifically, AutoGCL employs a set of learnable graph view generators orchestrated by an auto augmentation strategy, where every graph view generator learns a probability distribution of graphs conditioned by the input. While the graph view generators in AutoGCL preserve the most representative structures of the original graph in generation of every contrastive sample, the auto augmentation learns policies to introduce adequate augmentation variances in the whole contrastive learning procedure. Furthermore, AutoGCL adopts a joint training strategy to train the learnable view generators, the graph encoder, and the classifier in an end-to-end manner, resulting in topological heterogeneity yet semantic similarity in the generation of contrastive samples. Extensive experiments on semi-supervised learning, unsupervised learning, and transfer learning demonstrate the superiority of our AutoGCL framework over the state-of-the-arts in graph contrastive learning. In addition, the visualization results further confirm that the learnable view generators can deliver more compact and semantically meaningful contrastive samples compared against the existing view generation methods.
翻訳日:2021-09-22 14:15:58 公開日:2021-09-21
# 深層書誌結合を用いた局所科学地図の作成

Generating Local Maps of Science using Deep Bibliographic Coupling ( http://arxiv.org/abs/2109.10007v1 )

ライセンス: Link先を確認
Ga\"elle Candel, David Naccache(参考訳) 書誌学と共引用結合は、科学論文間の類似度を測定するために広く用いられている2つの分析手法である。 これらのアプローチは直感的で、実践が容易で、計算コストも安い。 さらに、それらは科学の地図を作成するために使われ、研究分野の相互作用を可視化することができる。 しかしながら、これらの手法は、2つの論文が標準参照を共有しない限り機能せず、2つの論文のユーザビリティを直接接続なしで制限する。 本研究では,グラフ拡散法を用いて,書誌結合を深部まで拡張することを提案する。 この方法では、任意の2つの論文間の類似性を定義でき、科学のローカルマップを生成し、フィールド組織を強調することができる。

Bibliographic and co-citation coupling are two analytical methods widely used to measure the degree of similarity between scientific papers. These approaches are intuitive, easy to put into practice, and computationally cheap. Moreover, they have been used to generate a map of science, allowing visualizing research field interactions. Nonetheless, these methods do not work unless two papers share a standard reference, limiting the two papers usability with no direct connection. In this work, we propose to extend bibliographic coupling to the deep neighborhood, by using graph diffusion methods. This method allows defining similarity between any two papers, making it possible to generate a local map of science, highlighting field organization.
翻訳日:2021-09-22 14:15:28 公開日:2021-09-21
# CONQUER: ビデオコーパスモーメント検索のためのコンテキストクエリ対応ランキング

CONQUER: Contextual Query-aware Ranking for Video Corpus Moment Retrieval ( http://arxiv.org/abs/2109.10016v1 )

ライセンス: Link先を確認
Zhijian Hou, Chong-Wah Ngo, Wing Kwong Chan(参考訳) 本稿では,最近提案されたビデオコーパスモーメント検索課題に取り組む。 高度なビデオ検索アプリケーションは、ユーザーが大きなビデオコーパスから正確なモーメントを検索できるようにするため、このタスクは不可欠である。 効果的なモーメントローカライゼーションとランキングのための新しい文脈的クエリアウェア・ランキングモデルを提案する。 CONQUERは、マルチモーダル融合と表現学習のためのクエリコンテキストを2つの異なるステップで検討する。 最初のステップは、マルチモーダルビデオコンテンツの適応結合のための融合重みを導出する。 第2のステップは、モーメントローカライゼーションのための単一のジョイント表現として、ビデオとクエリを密に結合する双方向の注意を行う。 クエリコンテキストが機能融合から変換に至るまで、ビデオ表現学習に完全に関与しているため、結果として得られる機能はユーザ中心であり、クエリに特有のマルチモーダル信号をキャプチャする能力が大きい。 本研究では,クローズドワールドtv番組のためのtvrと,オープンワールドユーザ生成ビデオのためのdidemoの2つのデータセットについて検討を行い,モーメント検索のための共同表現としてビデオと問合せの利点について検討した。

This paper tackles a recently proposed Video Corpus Moment Retrieval task. This task is essential because advanced video retrieval applications should enable users to retrieve a precise moment from a large video corpus. We propose a novel CONtextual QUery-awarE Ranking~(CONQUER) model for effective moment localization and ranking. CONQUER explores query context for multi-modal fusion and representation learning in two different steps. The first step derives fusion weights for the adaptive combination of multi-modal video content. The second step performs bi-directional attention to tightly couple video and query as a single joint representation for moment localization. As query context is fully engaged in video representation learning, from feature fusion to transformation, the resulting feature is user-centered and has a larger capacity in capturing multi-modal signals specific to query. We conduct studies on two datasets, TVR for closed-world TV episodes and DiDeMo for open-world user-generated videos, to investigate the potential advantages of fusing video and query online as a joint representation for moment retrieval.
翻訳日:2021-09-22 14:15:16 公開日:2021-09-21
# マイクロストリップパッチアンテナの電磁モデリングのためのニューラルネットワークに基づくソフトコンピューティング手法の比較

Comparison of Neural Network based Soft Computing Techniques for Electromagnetic Modeling of a Microstrip Patch Antenna ( http://arxiv.org/abs/2109.10065v1 )

ライセンス: Link先を確認
Yuvraj Singh Malhi and Navneet Gupta (Birla Institute of Technology and Science, Pilani)(参考訳) 本稿では,アンテナモデリングにおける精度,迅速性,一貫性に基づくニューラルネットワークとアルゴリズムの比較を行う。 MATLABによるNntoolを用いて、22種類のネットワークとトレーニングアルゴリズムを組み合わせて、誘電率、基板の高さ、動作頻度を入力として、矩形マイクロストリップアンテナの寸法を予測する。 ネットワークの比較とキャラクタリゼーションは、精度、平均二乗誤差、トレーニング時間に基づいて行われる。 一方、アルゴリズムは、その正確性、速度、信頼性、およびトレーニングプロセスの滑らかさによって分析される。 最後に、これらの結果を分析し、用途、長所、短所に基づいて、各ニューラルネットワークとアルゴリズムについて推奨する。 例えば、減少半径バイアスネットワークは最も正確なネットワークであり、スケールド共役勾配は電磁モデリングの最も信頼性の高いアルゴリズムである。 本稿では,時間的試行を行なわずに,最適なネットワークとアルゴリズムを直接見つけることを支援する。

This paper presents the comparison of various neural networks and algorithms based on accuracy, quickness, and consistency for antenna modelling. Using Nntool by MATLAB, 22 different combinations of networks and training algorithms are used to predict the dimensions of a rectangular microstrip antenna using dielectric constant, height of substrate, and frequency of operation as input. Comparison and characterization of networks is done based on accuracy, mean square error, and training time. Algorithms, on the other hand, are analyzed by their accuracy, speed, reliability, and smoothness in the training process. Finally, these results are analyzed, and recommendations are made for each neural network and algorithm based on uses, advantages, and disadvantages. For example, it is observed that Reduced Radial Bias network is the most accurate network and Scaled Conjugate Gradient is the most reliable algorithm for electromagnetic modelling. This paper will help a researcher find the optimum network and algorithm directly without doing time-taking experimentation.
翻訳日:2021-09-22 14:14:58 公開日:2021-09-21
# 不均質なマルチロボットチームのための複雑なタスクの分散ミッション計画

Distributed Mission Planning of Complex Tasks for Heterogeneous Multi-Robot Teams ( http://arxiv.org/abs/2109.10106v1 )

ライセンス: Link先を確認
Barbara Arbanas Ferreira, Tamara Petrovi\'c and Stjepan Bogdan(参考訳) 本稿では,異種多ロボットチームのための複雑なミッション計画のための分散多段階最適化手法を提案する。 このタイプの問題には、異なる方法で実行でき、システム内の異なるロボットのスケジュールを制限するクロススケジュール依存性に関連付けられるタスクが含まれる。 提案されたアプローチは、ミッション目標を定義する階層木として表される、ミッションの多目的ヒューリスティックな探索を含む。 この手順は、ミッションを達成するためのいくつかの好ましい方法を出力し、メソッドの次のステージに直接供給する。 進化計算に基づく分散メタヒューリスティックを提案し、タスクを割り当て、選択した分解のセットのスケジュールを生成する。 本手法は, 自動温室利用事例のシミュレーション設定で評価され, 利用可能なロボットと与えられた最適化基準に応じて, 計画戦略に適応する手法の能力を実証する。

In this paper, we propose a distributed multi-stage optimization method for planning complex missions for heterogeneous multi-robot teams. This class of problems involves tasks that can be executed in different ways and are associated with cross-schedule dependencies that constrain the schedules of the different robots in the system. The proposed approach involves a multi-objective heuristic search of the mission, represented as a hierarchical tree that defines the mission goal. This procedure outputs several favorable ways to fulfill the mission, which directly feed into the next stage of the method. We propose a distributed metaheuristic based on evolutionary computation to allocate tasks and generate schedules for the set of chosen decompositions. The method is evaluated in a simulation setup of an automated greenhouse use case, where we demonstrate the method's ability to adapt the planning strategy depending on the available robots and the given optimization criteria.
翻訳日:2021-09-22 14:14:42 公開日:2021-09-21
# 確率的顧客による車両経路問題に対するオフライン近似動的計画法と分散意思決定による要求

Off-line approximate dynamic programming for the vehicle routing problem with stochastic customers and demands via decentralized decision-making ( http://arxiv.org/abs/2109.10200v1 )

ライセンス: Link先を確認
Mohsen Dastpak and Fausto Errico(参考訳) 本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の確率的変種について検討する。 特に、潜在的な顧客は事前に定義された顧客セットに制限されず、特定のサービス領域に継続的に空間的に分散されます。 目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。 私たちはこの問題を、確率的顧客と要求(vrpscd)によるvrpと呼んでいる。 そこで我々はまず,一台の意思決定者が全車両の経路を確立するという古典的中央集権的意思決定の視点を表現したマルコフ決定プロセス(MDP)を提案する。 結果として得られる定式化は難航するが、車両が自律的に独自のルートを確立する分散型意思決定フレームワークを表すVRPSCDの新しいMDP定式化を開発するための基盤を提供する。 この新しい定式化により、状態とアクション空間の次元を減らすためのいくつかの戦略を開発することができ、結果としてかなり扱いやすい問題になってしまう。 本稿では,Reinforcement Learningによる分散化問題を解くとともに,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQ学習アルゴリズムを開発した。 計算結果から,本手法は一般に採用されている2つのベンチマークポリシー(ランダムとヒューリスティック)をかなり上回る結果となった。 また,既存の文献と比較すると,顧客の位置や期待需要が事前に分かっているvrpscdの特定のケースで開発された専門的な手法と競合できることを示す。 最後に,本アルゴリズムで得られた値関数とポリシーをロールアウトアルゴリズムに簡単に組み込むことができ,性能が向上することを示す。

This paper studies a stochastic variant of the vehicle routing problem (VRP) where both customer locations and demands are uncertain. In particular, potential customers are not restricted to a predefined customer set but are continuously spatially distributed in a given service area. The objective is to maximize the served demands while fulfilling vehicle capacities and time restrictions. We call this problem the VRP with stochastic customers and demands (VRPSCD). For this problem, we first propose a Markov Decision Process (MDP) formulation representing the classical centralized decision-making perspective where one decision-maker establishes the routes of all vehicles. While the resulting formulation turns out to be intractable, it provides us with the ground to develop a new MDP formulation of the VRPSCD representing a decentralized decision-making framework, where vehicles autonomously establish their own routes. This new formulation allows us to develop several strategies to reduce the dimension of the state and action spaces, resulting in a considerably more tractable problem. We solve the decentralized problem via Reinforcement Learning, and in particular, we develop a Q-learning algorithm featuring state-of-the-art acceleration techniques such as Replay Memory and Double Q Network. Computational results show that our method considerably outperforms two commonly adopted benchmark policies (random and heuristic). Moreover, when comparing with existing literature, we show that our approach can compete with specialized methods developed for the particular case of the VRPSCD where customer locations and expected demands are known in advance. Finally, we show that the value functions and policies obtained by our algorithm can be easily embedded in Rollout algorithms, thus further improving their performances.
翻訳日:2021-09-22 14:14:28 公開日:2021-09-21
# 注意を伴う単語分割の難しさについて

On the Difficulty of Segmenting Words with Attention ( http://arxiv.org/abs/2109.10107v1 )

ライセンス: Link先を確認
Ramon Sanabria, Hao Tang, Sharon Goldwater(参考訳) 単語セグメンテーション(英: word segmentation)とは、言語における単語境界を見つける問題である。 前述した論文では、音声翻訳や音声認識などのタスクで訓練されたシーケンスからシーケンスへのモデルでは、単語の検索と分割に注意が向けられることを示唆している。 しかし、このアプローチは単言語データでも不安定であることを示している。 異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムを用いた実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。 電話または音声から単語を予測するために訓練されたモデル(すなわち、新しいデータに一般化するのに必要となる反対方向)は、はるかに悪い結果をもたらす。

Word segmentation, the problem of finding word boundaries in speech, is of interest for a range of tasks. Previous papers have suggested that for sequence-to-sequence models trained on tasks such as speech translation or speech recognition, attention can be used to locate and segment the words. We show, however, that even on monolingual data this approach is brittle. In our experiments with different input types, data sizes, and segmentation algorithms, only models trained to predict phones from words succeed in the task. Models trained to predict words from either phones or speech (i.e., the opposite direction needed to generalize to new data), yield much worse results, suggesting that attention-based segmentation is only useful in limited scenarios.
翻訳日:2021-09-22 14:14:01 公開日:2021-09-21
# AirDOS:Articulated Objectsによる動的SLAMのメリット

AirDOS: Dynamic SLAM benefits from Articulated Objects ( http://arxiv.org/abs/2109.09903v1 )

ライセンス: Link先を確認
Yuheng Qiu, Chen Wang, Wenshan Wang, Mina Henein, Sebastian Scherer(参考訳) dynamic object-aware slam (dos) はオブジェクトレベルの情報を利用して動的環境におけるロバストな動き推定を可能にする。 近年の学習モデルの成功に注目が集まっている。 既存の手法は主に最適化から動的オブジェクトを識別および排除することに焦点を当てている。 本稿では,(1)関節物体の3次元構造は時間とともに一貫性が保たれ,(2)同じ物体上の点は同じ動きに従わなければならない,という2つの観察を生かして,特徴ベースの視覚スラムシステムも動的関節物体の存在の利点を享受できることを示す。 特に,物体のモデル化に剛性と動作制約を導入する動的物体認識システムであるairdosを提案する。 カメラポーズ,オブジェクト動作,オブジェクト3D構造を協調的に最適化することにより,カメラポーズ推定を補正し,トラッキングロスを防止し,動的オブジェクトと静的シーンの両方に対して4次元時空間マップを生成する。 実験により, 混み合った都市環境における視覚的SLAMアルゴリズムのロバスト性の向上が示された。 われわれの知る限りでは、airdosは初めて動的物体認識スラムシステムであり、動的関節オブジェクトを組み込むことでカメラのポーズ推定を改善することを実証している。

Dynamic Object-aware SLAM (DOS) exploits object-level information to enable robust motion estimation in dynamic environments. It has attracted increasing attention with the recent success of learning-based models. Existing methods mainly focus on identifying and excluding dynamic objects from the optimization. In this paper, we show that feature-based visual SLAM systems can also benefit from the presence of dynamic articulated objects by taking advantage of two observations: (1) The 3D structure of an articulated object remains consistent over time; (2) The points on the same object follow the same motion. In particular, we present AirDOS, a dynamic object-aware system that introduces rigidity and motion constraints to model articulated objects. By jointly optimizing the camera pose, object motion, and the object 3D structure, we can rectify the camera pose estimation, preventing tracking loss, and generate 4D spatio-temporal maps for both dynamic objects and static scenes. Experiments show that our algorithm improves the robustness of visual SLAM algorithms in challenging crowded urban environments. To the best of our knowledge, AirDOS is the first dynamic object-aware SLAM system demonstrating that camera pose estimation can be improved by incorporating dynamic articulated objects.
翻訳日:2021-09-22 14:13:48 公開日:2021-09-21
# messfn : パンシャープ化のためのマルチレベルスペクトル空間融合ネットワーク

MESSFN : a Multi-level and Enhanced Spectral-Spatial Fusion Network for Pan-sharpening ( http://arxiv.org/abs/2109.09937v1 )

ライセンス: Link先を確認
Yuan Yuan, Yi Sun, Yuanlin Zhang(参考訳) 支配的なパンシャーピングフレームワークは、MSストリームとPANストリームを特定のレベルで1度だけ結合する。 この融合方式は、融合性能の向上に不可欠である2つのストリーム間の多重レベルスペクトル-空間相関を無視する。 まず,上記の相関を十分に活用し,強化するために階層型マルチレベル融合アーキテクチャ(hmfa)を慎重に設計する。 スペクトル空間(SS)ストリームは,MSストリームとPANストリームから,複数レベルの先行スペクトルおよび空間的専門知識を階層的に導出し,融合するために確立された。 これにより、ssストリームは階層ネットワーク内の結合スペクトル空間表現をマスターし、融合関係のモデリングを改善することができる。 第2に,MS画像とPAN画像の本質的な特徴に基づいて,優れた専門知識を提供するために,2つの特徴抽出ブロックを特別に開発する。 msストリームでは、隣接するクロススペクトル相互作用を介してms画像の異なるスペクトル間の潜在的なスペクトル相関をマイニングするために、残差スペクトル注意ブロック(rsab)が提案されている。 PANストリームでは,Residual Multi-scale Spatial Attention Block (RMSAB) が提案され,マルチスケール情報を取得し,空間的注意に基づくインセプション構造の改善によりPAN画像から高精度な高周波詳細を再構成する。 スペクトルおよび空間的特徴表現が強化される。 2つのデータセットに対する大規模な実験は、提案されたネットワークが最先端の手法と競合しているか、優れていることを示す。 私たちのコードはgithubにあります。

Dominant pan-sharpening frameworks simply concatenate the MS stream and the PAN stream once at a specific level. This way of fusion neglects the multi-level spectral-spatial correlation between the two streams, which is vital to improving the fusion performance. In consideration of this, we propose a Multi-level and Enhanced Spectral-Spatial Fusion Network (MESSFN) with the following innovations: First, to fully exploit and strengthen the above correlation, a Hierarchical Multi-level Fusion Architecture (HMFA) is carefully designed. A novel Spectral-Spatial (SS) stream is established to hierarchically derive and fuse the multi-level prior spectral and spatial expertise from the MS stream and the PAN stream. This helps the SS stream master a joint spectral-spatial representation in the hierarchical network for better modeling the fusion relationship. Second, to provide superior expertise, consequently, based on the intrinsic characteristics of the MS image and the PAN image, two feature extraction blocks are specially developed. In the MS stream, a Residual Spectral Attention Block (RSAB) is proposed to mine the potential spectral correlations between different spectra of the MS image through adjacent cross-spectrum interaction. While in the PAN stream, a Residual Multi-scale Spatial Attention Block (RMSAB) is proposed to capture multi-scale information and reconstruct precise high-frequency details from the PAN image through an improved spatial attention-based inception structure. The spectral and spatial feature representations are enhanced. Extensive experiments on two datasets demonstrate that the proposed network is competitive with or better than state-of-the-art methods. Our code can be found in github.
翻訳日:2021-09-22 14:13:26 公開日:2021-09-21
# データ駆動型制御器と水中操作における知覚システムの必要性

Data-driven controllers and the need for perception systems in underwater manipulation ( http://arxiv.org/abs/2109.10327v1 )

ライセンス: Link先を確認
James P. Oubre, Ignacio Carlucho, Corina Barbalata(参考訳) 水中環境は、水中車両マニピュレータシステム(UVMS)の自律能力開発に複雑な問題を引き起こす。 UVMSのモデリングは、非常に非線形なダイナミクスと未知の流体力学効果の存在により複雑でコストがかかるプロセスである。 これは、オブジェクトの操作が必要なタスクにおいて、制御システムの性能が急速に低下する可能性のある外部障害を導入するだけでなく、オブジェクトの正確な把握と操作のための視覚システムとの協調も必要となるため、増大する。 本稿では,未知のペイロードを扱うUVMSの制御戦略を紹介する。 提案する制御戦略は,データ駆動型最適制御系に基づく。 提案手法の利点を示す実験結果をいくつか提示する。 さらに、未知のペイロードの水中操作タスクにおいて完全な自律性を達成するために、UVMSの視覚的認識要件について議論する。

The underwater environment poses a complex problem for developing autonomous capabilities for Underwater Vehicle Manipulator Systems (UVMSs). The modeling of UVMSs is a complicated and costly process due to the highly nonlinear dynamics and the presence of unknown hydrodynamical effects. This is aggravated in tasks where the manipulation of objects is necessary, as this may not only introduce external disturbances that can lead to a fast degradation of the control system performance, but also requires the coordinating with a vision system for the correct grasping and operation of the object. In this article, we introduce a control strategy for UVMSs working with unknown payloads. The proposed control strategy is based on a data-driven optimal controller. We present a number of experimental results showing the benefits of the proposed strategy. Furthermore, we include a discussion regarding the visual perception requirements for the UVMS in order to achieve full autonomy in underwater manipulation tasks of unknown payloads.
翻訳日:2021-09-22 14:12:54 公開日:2021-09-21
# ニューロモルフィックプロセッサを用いたMAV搭載高度制御のための擬似ニューロモルフィックPIDの設計と実装

Design and implementation of a parsimonious neuromorphic PID for onboard altitude control for MAVs using neuromorphic processors ( http://arxiv.org/abs/2109.10199v1 )

ライセンス: Link先を確認
Stein Stroobants, Julien Dupeyroux, Guido de Croon(参考訳) ロボットのニューロモルフィックなセンシングと処理の素晴らしい約束により、研究者やエンジニアは自律ロボット(ナビゲーション、障害物検出、回避など)の堅牢で信頼性の高い制御のための新しいモデル、特にドローンレースやアグレッシブな操作といった困難な状況におけるクワッドローターを調査できるようになった。 スパイクニューラルネットワークを使うことで、これらのモデルがニューロモルフィックハードウェア上で動作し、優れた更新率と高エネルギー効率の恩恵を受けることができる。 しかし、低レベルコントローラはしばしば無視され、ニューロモルフィックループの外にとどまる。 低レベルのニューロモルフィックコントローラの設計は、標準のPIDを取り除くことが不可欠であり、それゆえ、ニューロモルフィックループを閉じるという利点の恩恵を受ける。 本稿では,IntelのLoihiニューロモルフィックチップを搭載したクアッドロータの自律・オンボード高度制御を実現するために,93個のニューロンを最小限に連結したパシモニアスで調整可能なPIDコントローラを提案する。 我々は,提案するネットワークのロバスト性について,離陸から目標高度に達するようクオータを要求された一連の実験で実証した。 その結果,低レベルのニューロモルフィックコントローラの適合性は,最終的に非常に高い更新頻度で確認できた。

The great promises of neuromorphic sensing and processing for robotics have led researchers and engineers to investigate novel models for robust and reliable control of autonomous robots (navigation, obstacle detection and avoidance, etc.), especially for quadrotors in challenging contexts such as drone racing and aggressive maneuvers. Using spiking neural networks, these models can be run on neuromorphic hardware to benefit from outstanding update rates and high energy efficiency. Yet, low-level controllers are often neglected and remain outside of the neuromorphic loop. Designing low-level neuromorphic controllers is crucial to remove the standard PID, and therefore benefit from all the advantages of closing the neuromorphic loop. In this paper, we propose a parsimonious and adjustable neuromorphic PID controller, endowed with a minimal number of 93 neurons sparsely connected to achieve autonomous, onboard altitude control of a quadrotor equipped with Intel's Loihi neuromorphic chip. We successfully demonstrate the robustness of our proposed network in a set of experiments where the quadrotor is requested to reach a target altitude from take-off. Our results confirm the suitability of such low-level neuromorphic controllers, ultimately with a very high update frequency.
翻訳日:2021-09-22 14:11:49 公開日:2021-09-21
# コルモゴロフ複雑性を用いた計算複雑性認識計画

Computing Complexity-aware Plans Using Kolmogorov Complexity ( http://arxiv.org/abs/2109.10303v1 )

ライセンス: Link先を確認
Elis Stefansson, Karl H. Johansson(参考訳) 本稿では,コルモゴロフ複雑性に基づく有限水平決定性有限オートマトンに対する複雑性を考慮した計画法を提案する。 コルモゴロフの複雑性は、決定論的最適政策の計算的正則性を検出できるため考慮される。 政策のパフォーマンスと複雑さの間に明確なトレードオフをもたらす計画目標を示す。 この目的を最大化することは、動的プログラミングが実現不可能であるという意味では非自明であることが証明されている。 そこで,第1のアルゴリズムは低複雑さの最適ポリシを,第2のアルゴリズムは局所的な(段階的な)複雑性制約を維持しつつ,性能を最大化するポリシを求める。 移動ロボットの単純なナビゲーションタスクでアルゴリズムを評価することにより,直観に合致する低複雑さポリシが実現される。

In this paper, we introduce complexity-aware planning for finite-horizon deterministic finite automata with rewards as outputs, based on Kolmogorov complexity. Kolmogorov complexity is considered since it can detect computational regularities of deterministic optimal policies. We present a planning objective yielding an explicit trade-off between a policy's performance and complexity. It is proven that maximising this objective is non-trivial in the sense that dynamic programming is infeasible. We present two algorithms obtaining low-complexity policies, where the first algorithm obtains a low-complexity optimal policy, and the second algorithm finds a policy maximising performance while maintaining local (stage-wise) complexity constraints. We evaluate the algorithms on a simple navigation task for a mobile robot, where our algorithms yield low-complexity policies that concur with intuition.
翻訳日:2021-09-22 14:11:23 公開日:2021-09-21
# FakeWake: 音声アシスタントのフェイクウェイクアップ単語の理解と緩和

FakeWake: Understanding and Mitigating Fake Wake-up Words of Voice Assistants ( http://arxiv.org/abs/2109.09958v1 )

ライセンス: Link先を確認
Yanjiao Chen, Yijie Bai, Richard Mitev, Kaibo Wang, Ahmad-Reza Sadeghi and Wenyuan Xu(参考訳) IoT(Internet of Things)分野では、スマートスピーカーやスマートフォン、さらには自動車を操作するための重要なインターフェースになっています。 パワーを節約し、ユーザーのプライバシーを保護するために、音声アシスタントは、事前登録された起動ワードが検出された場合にのみ、コマンドをクラウドに送信する。 しかし、音声アシスタントはフェイクウェイク現象に弱いことが示されており、不吉なファジィワードによって不注意に引き起こされる。 本稿では,3つの側面から,フェイクウェイク現象の系統的研究を行う。 まず,音声資料群を検索する代わりに,ファジィ単語を自動かつ効率的に生成するファジィ単語生成装置を設計する。 英語と中国語の8つのスマートスピーカーをカバーする965のファジィワードを生成しました。 ファジィ語の誤認識に寄与する音声的特徴を明らかにするため,ファジィウェーク現象の背後にある原因を説明するために,木ベースの決定モデルを構築した。 最後に,FakeWakeの効果を軽減するための対策を提案する。 その結果、強化されたモデルはファジィな単語に対して弾力性を持つだけでなく、元のトレーニングデータセットでの全体的なパフォーマンスも向上した。

In the area of Internet of Things (IoT) voice assistants have become an important interface to operate smart speakers, smartphones, and even automobiles. To save power and protect user privacy, voice assistants send commands to the cloud only if a small set of pre-registered wake-up words are detected. However, voice assistants are shown to be vulnerable to the FakeWake phenomena, whereby they are inadvertently triggered by innocent-sounding fuzzy words. In this paper, we present a systematic investigation of the FakeWake phenomena from three aspects. To start with, we design the first fuzzy word generator to automatically and efficiently produce fuzzy words instead of searching through a swarm of audio materials. We manage to generate 965 fuzzy words covering 8 most popular English and Chinese smart speakers. To explain the causes underlying the FakeWake phenomena, we construct an interpretable tree-based decision model, which reveals phonetic features that contribute to false acceptance of fuzzy words by wake-up word detectors. Finally, we propose remedies to mitigate the effect of FakeWake. The results show that the strengthened models are not only resilient to fuzzy words but also achieve better overall performance on original training datasets.
翻訳日:2021-09-22 14:10:12 公開日:2021-09-21
# 降水モデルのための非パラメトリックカーネルに基づく確率分布の推定

Non-parametric Kernel-Based Estimation of Probability Distributions for Precipitation Modeling ( http://arxiv.org/abs/2109.09961v1 )

ライセンス: Link先を確認
Andrew Pavlides, Vasiliki Agou, Dionissios T. Hristopulos(参考訳) 降水量の確率分布は、地理、気候帯、時間スケールに大きく依存する。 閉形式パラメトリック確率分布は、異なる時間スケールでの降水量の正確で普遍的なモデルを提供するのに十分柔軟ではない。 本稿では,湿潤時間間隔の降水量の累積分布関数(CDF)の非パラメトリック推定を導出する。 CDF推定は、異なるカーネル関数に対する半明示的なCDF式につながるカーネル密度推定器を統合することで得られる。 我々は,クレタ島(ギリシャ)の合成データセットと再解析降水データの両方を用いて,適応プラグイン帯域幅(KCDE)を用いたカーネルベースのCDF推定について検討した。 kcdeは標準経験的(階段)推定値や標準参照帯域幅を用いたカーネルベース推定値よりも、確率分布のより良い推定値を提供する。 また,kcdeは逆変換サンプリング法による非パラメトリック降水量分布のシミュレーションを可能にすることを示した。

The probability distribution of precipitation amount strongly depends on geography, climate zone, and time scale considered. Closed-form parametric probability distributions are not sufficiently flexible to provide accurate and universal models for precipitation amount over different time scales. In this paper we derive non-parametric estimates of the cumulative distribution function (CDF) of precipitation amount for wet time intervals. The CDF estimates are obtained by integrating the kernel density estimator leading to semi-explicit CDF expressions for different kernel functions. We investigate kernel-based CDF estimation with an adaptive plug-in bandwidth (KCDE), using both synthetic data sets and reanalysis precipitation data from the island of Crete (Greece). We show that KCDE provides better estimates of the probability distribution than the standard empirical (staircase) estimate and kernel-based estimates that use the normal reference bandwidth. We also demonstrate that KCDE enables the simulation of non-parametric precipitation amount distributions by means of the inverse transform sampling method.
翻訳日:2021-09-22 14:09:50 公開日:2021-09-21
# トンプソンサンプリングを用いたワクチン割当政策最適化と予算共有機構

Vaccine allocation policy optimization and budget sharing mechanism using Thompson sampling ( http://arxiv.org/abs/2109.10004v1 )

ライセンス: Link先を確認
David Rey, Ahmed W Hammad, Meead Saberi(参考訳) 人口サブグループへのワクチンの最適な割り当ては、医療管理の問題である。 パンデミックの文脈では、複数のエージェントが採用する予防接種政策と協力(または欠如)との相互作用は、病気の世界的な伝染動態に影響を与える複雑な環境を生み出す。 本研究は, 人口規模を最小化し, 限られた供給下でワクチンを割り当てなければならない意思決定エージェントの視点を考察する。 ワクチンの効率性はエージェントには知られていないと仮定し,トンプソンサンプリングに基づく最適化方針を提案し,ワクチン効率を経時的に学習する。 さらに,エージェント間の協力を促進するため,予算バランスの取れた資源共有機構を開発する。 提案フレームワークを新型コロナウイルス(covid-19)パンデミックに適用する。 エージェントが世界中の主要国を代表し、グローバルモビリティネットワークで対話し、複数の問題インスタンスを生成する、世界のラスタモデルを用いています。 以上の結果から, 患者数, 感染数, 死亡数の減少率は, 人口ベースの政策に比べ, 全国的に減少していることがわかった。 また, 固定的なグローバルワクチン割当予算の下では, 多くの国が, 比較的高い移動手段を有する国と予算を共有することで, 全国的な感染・死亡率の削減を図っている。 提案された枠組みは、各国および世界保健当局による医療管理における政策立案の改善に利用できる。

The optimal allocation of vaccines to population subgroups over time is a challenging health care management problem. In the context of a pandemic, the interaction between vaccination policies adopted by multiple agents and the cooperation (or lack thereof) creates a complex environment that affects the global transmission dynamics of the disease. In this study, we take the perspective of decision-making agents that aim to minimize the size of their susceptible populations and must allocate vaccine under limited supply. We assume that vaccine efficiency rates are unknown to agents and we propose an optimization policy based on Thompson sampling to learn mean vaccine efficiency rates over time. Furthermore, we develop a budget-balanced resource sharing mechanism to promote cooperation among agents. We apply the proposed framework to the COVID-19 pandemic. We use a raster model of the world where agents represent the main countries worldwide and interact in a global mobility network to generate multiple problem instances. Our numerical results show that the proposed vaccine allocation policy achieves a larger reduction in the number of susceptible individuals, infections and deaths globally compared to a population-based policy. In addition, we show that, under a fixed global vaccine allocation budget, most countries can reduce their national number of infections and deaths by sharing their budget with countries with which they have a relatively high mobility exchange. The proposed framework can be used to improve policy-making in health care management by national and global health authorities.
翻訳日:2021-09-22 14:09:36 公開日:2021-09-21
# アルゴリズムによる意思決定のためのフェアネス対応スコアシステムに向けて

Towards a Fairness-Aware Scoring System for Algorithmic Decision-Making ( http://arxiv.org/abs/2109.10053v1 )

ライセンス: Link先を確認
Yi Yang, Ying Wu, Xiangyu Chang, Mei Li(参考訳) 単純な分類モデルとしてスコーリングシステムは、予測を行う際の解釈可能性と透明性において大きな利点がある。 数点の点数を加えて手動による迅速な予測を行うことで、人間の意思決定を促進するため、集中治療室の診断など様々な分野で広く利用されている。 しかしながら、これらのモデルにおける(不公平な)問題は長い間批判され、スコアシステム構築におけるバイアスデータの使用は、この懸念を高める。 本稿では,データ駆動フェアネスアウェアスコアリングシステムを構築するための汎用フレームワークを提案する。 我々のアプローチは、効率性と公平性の両方を取り入れた社会福祉機能を開発することである。 そこで我々は,経済学における社会福祉の最大化問題を機械学習コミュニティにおける経験的リスク最小化タスクに翻訳し,混合整数プログラミングの助けを借りて公平性を考慮したスコアリングシステムを構築する。 提案フレームワークが実践者や政策立案者に対して,所望の公平性要件を選択できる柔軟性を提供し,様々な運用上の制約を課すことで,独自の要件をカスタマイズできることを示す。 いくつかの実データ集合における実験的な証拠は、提案されたスコアリングシステムが利害関係者の最適な福祉を実現し、解釈可能性、公平性、効率性の問題とバランスをとることができることを検証している。

Scoring systems, as simple classification models, have significant advantages in interpretability and transparency when making predictions. It facilitates humans' decision-making by allowing them to make a quick prediction by hand through adding and subtracting a few point scores and thus has been widely used in various fields such as medical diagnosis of Intensive Care Units. However, the (un)fairness issues in these models have long been criticized, and the use of biased data in the construction of score systems heightens this concern. In this paper, we proposed a general framework to create data-driven fairness-aware scoring systems. Our approach is first to develop a social welfare function that incorporates both efficiency and equity. Then, we translate the social welfare maximization problem in economics into the empirical risk minimization task in the machine learning community to derive a fairness-aware scoring system with the help of mixed integer programming. We show that the proposed framework provides practitioners or policymakers great flexibility to select their desired fairness requirements and also allows them to customize their own requirements by imposing various operational constraints. Experimental evidence on several real data sets verifies that the proposed scoring system can achieve the optimal welfare of stakeholders and balance the interpretability, fairness, and efficiency issues.
翻訳日:2021-09-22 14:09:13 公開日:2021-09-21
# mGNN: グラフニューラルネットワークを多層ケースに一般化する

mGNN: Generalizing the Graph Neural Networks to the Multilayer Case ( http://arxiv.org/abs/2109.10119v1 )

ライセンス: Link先を確認
Marco Grassia, Manlio De Domenico, Giuseppe Mangioni(参考訳) ネットワークは複雑なシステムをモデル化するための強力なツールであり、ネットワークを扱うディープラーニングアルゴリズムである多くのグラフニューラルネットワーク(GNN)の定義は、ほとんど、あるいは、難解な多くの現実世界の問題にアプローチする新しい方法を開いた。 本稿では,GNNを多層ネットワーク,すなわち複数種類の相互作用やノード間の関係をモデル化可能なネットワークに一般化するためのフレームワークであるmGNNを提案する。 我々のアプローチは汎用的であり(タスク固有ではない)、計算オーバーヘッドを伴わずに任意の種類のGNNを拡張する利点がある。 フレームワークを3つの異なるタスク(ノードとネットワークの分類、リンク予測)でテストして検証します。

Networks are a powerful tool to model complex systems, and the definition of many Graph Neural Networks (GNN), Deep Learning algorithms that can handle networks, has opened a new way to approach many real-world problems that would be hardly or even untractable. In this paper, we propose mGNN, a framework meant to generalize GNNs to the case of multi-layer networks, i.e., networks that can model multiple kinds of interactions and relations between nodes. Our approach is general (i.e., not task specific) and has the advantage of extending any type of GNN without any computational overhead. We test the framework into three different tasks (node and network classification, link prediction) to validate it.
翻訳日:2021-09-22 14:08:52 公開日:2021-09-21
# 物理認識ニューラルネットワークを用いた短期交通予測

Short-term traffic prediction using physics-aware neural networks ( http://arxiv.org/abs/2109.10253v1 )

ライセンス: Link先を確認
Mike Pereira, Annika Lang, and Bal\'azs Kulcs\'ar(参考訳) そこで本研究では,過去のフラックス測定値を用いて,道路走行中の車両のフラックスの短期予測を行うアルゴリズムを提案する。 このアルゴリズムは物理認識リカレントニューラルネットワークに基づいている。 ネットワークのアーキテクチャには、マクロトラヒックフローモデル(いわゆるトラヒックリアクションモデル)の離散化が組み込まれており、予測および予測された時空依存トラヒックパラメータに基づいてフラックス予測を行う。 これらのパラメータはLSTMアンス単純なリカレントニューラルネットワークを継承して得られる。 さらに, 予測の上位に, マクロな交通流モデルにより物理的に制約された入力の平滑化をアルゴリズムが生成する。 このアルゴリズムはループ検出器から得られた生のフラックス測定で試験される。

In this work, we propose an algorithm performing short-term predictions of the flux of vehicles on a stretch of road, using past measurements of the flux. This algorithm is based on a physics-aware recurrent neural network. A discretization of a macroscopic traffic flow model (using the so-called Traffic Reaction Model) is embedded in the architecture of the network and yields flux predictions based on estimated and predicted space-time dependent traffic parameters. These parameters are themselves obtained using a succession of LSTM ans simple recurrent neural networks. Besides, on top of the predictions, the algorithm yields a smoothing of its inputs which is also physically-constrain ed by the macroscopic traffic flow model. The algorithm is tested on raw flux measurements obtained from loop detectors.
翻訳日:2021-09-22 14:08:38 公開日:2021-09-21
# 化学反応アウェア分子表現学習

Chemical-Reaction-Aw are Molecule Representation Learning ( http://arxiv.org/abs/2109.09888v1 )

ライセンス: Link先を確認
Hongwei Wang, Weijiang Li, Xiaomeng Jin, Kyunghyun Cho, Heng Ji, Jiawei Han, Martin D. Burke(参考訳) 分子表現学習(MRL)法は、分子を実ベクトル空間に埋め込むことを目的としている。 しかし、既存のSMILES (Simplified Molecular-Input Line-Entry System) やGNN (Graph Neural Networks) のMRL法は、SMILES文字列を分子構造情報を符号化するのに困難である入力として利用するか、GNNアーキテクチャの重要性を過度に強調するが、一般化能力は無視する。 本稿では,化学反応を用いて分子の学習を支援することを提案する。 我々のアプローチの鍵となる考え方は、埋め込み空間における化学反応に関する分子の同値性を維持することであり、すなわち、反応性埋め込みの和と積埋め込みの和を各化学式に等しいように強制することである。 この制約は有効であることが証明される 1)埋込み空間をよく整理し、維持する。 2)分子埋め込みの一般化能力を向上させる。 さらに,本モデルでは分子エンコーダとして任意のGNNを使用でき,GNNアーキテクチャに依存しない。 実験結果から, 化学反応予測における17.4%の絶対Hit@1ゲイン, 2.3%の絶対AUCゲイン, 18.5%の相対RMSEゲインなど, 様々なダウンストリームタスクにおいて, 最先端性能を実現していることが示された。 コードはhttps://github.com/h wwang55/molrで入手できる。

Molecule representation learning (MRL) methods aim to embed molecules into a real vector space. However, existing SMILES-based (Simplified Molecular-Input Line-Entry System) or GNN-based (Graph Neural Networks) MRL methods either take SMILES strings as input that have difficulty in encoding molecule structure information, or over-emphasize the importance of GNN architectures but neglect their generalization ability. Here we propose using chemical reactions to assist learning molecule representation. The key idea of our approach is to preserve the equivalence of molecules with respect to chemical reactions in the embedding space, i.e., forcing the sum of reactant embeddings and the sum of product embeddings to be equal for each chemical equation. This constraint is proven effective to 1) keep the embedding space well-organized and 2) improve the generalization ability of molecule embeddings. Moreover, our model can use any GNN as the molecule encoder and is thus agnostic to GNN architectures. Experimental results demonstrate that our method achieves state-of-the-art performance in a variety of downstream tasks, e.g., 17.4% absolute Hit@1 gain in chemical reaction prediction, 2.3% absolute AUC gain in molecule property prediction, and 18.5% relative RMSE gain in graph-edit-distance prediction, respectively, over the best baseline method. The code is available at https://github.com/h wwang55/MolR.
翻訳日:2021-09-22 14:07:41 公開日:2021-09-21
# メタモデル構造選択:回帰と分類のためのポリノミアルNARXモデルの構築

Meta-Model Structure Selection: Building Polynomial NARX Model for Regression and Classification ( http://arxiv.org/abs/2109.09917v1 )

ライセンス: Link先を確認
W. R. Lacerda Junior, S. A. M. Martins, E. G. Nepomuceno(参考訳) 本研究は回帰と分類問題に対する多項式NARXモデルの構造を選択するための新しいメタヒューリスティック手法を提案する。 この手法は、新しいコスト関数の定式化を提案することによって、モデルの複雑さと各項の寄与を考慮に入れる。 新しいアルゴリズムのロバスト性は、異なる非線形特性を持つ複数のシミュレーションおよび実験システムで試験される。 得られた結果から,本アルゴリズムは,適切なモデル構造が知られている場合において,正しいモデルを特定し,従来手法や現代手法が日常的に失敗するシステムにおいても実験データのための類似モデルを決定することができることがわかった。 このアルゴリズムは、FROLSや最近のランダム化手法のような古典的手法で検証される。

This work presents a new meta-heuristic approach to select the structure of polynomial NARX models for regression and classification problems. The method takes into account the complexity of the model and the contribution of each term to build parsimonious models by proposing a new cost function formulation. The robustness of the new algorithm is tested on several simulated and experimental system with different nonlinear characteristics. The obtained results show that the proposed algorithm is capable of identifying the correct model, for cases where the proper model structure is known, and determine parsimonious models for experimental data even for those systems for which traditional and contemporary methods habitually fails. The new algorithm is validated over classical methods such as the FROLS and recent randomized approaches.
翻訳日:2021-09-22 14:07:12 公開日:2021-09-21
# se(3)ハミルトン力学のための学習適応制御

Learning Adaptive Control for SE(3) Hamiltonian Dynamics ( http://arxiv.org/abs/2109.09974v1 )

ライセンス: Link先を確認
Thai Duong and Nikolay Atanasov(参考訳) 迅速な適応制御は、急速に変化する運用条件において、信頼性の高いロボット自律性にとって重要な要素である。 ロボットのダイナミクスモデルは、最初の原則やデータから得られるかもしれないが、そのパラメーターの更新は、しばしば環境変化へのオンライン適応には遅すぎる。 これにより、軌道データからオフラインで外乱ディスクリプタを学習する機械学習技術や、オンライン外乱を推定して補償するための適応制御の設計が動機付けられる。 本稿では,se(3)多様体上のハミルトンの運動方程式を満たす地上,空中,水中車両などの剛体系の適応幾何制御を考案する。 我々の設計はオフラインのシステム識別段階からなり、続いてオンライン適応制御段階が続く。 第1段階では、外乱実現の異なる状態制御軌道データから訓練された神経常微分方程式(英語版)(ode)ネットワークを用いてシステムダイナミクスのハミルトニアンモデルを学ぶ。 外乱は非線形ディスクリプタの線形結合としてモデル化される。 第2段階ではエネルギーベースの観点から外乱補償を施した軌道追従制御器を設計する。 適応制御法は、SE(3)多様体上の幾何追跡誤差に比例したオンライン乱れモデルを調整するために用いられる。 我々は,全動振子と過動振子を用いた軌道追跡のための適応的幾何制御器を検証する。

Fast adaptive control is a critical component for reliable robot autonomy in rapidly changing operational conditions. While a robot dynamics model may be obtained from first principles or learned from data, updating its parameters is often too slow for online adaptation to environment changes. This motivates the use of machine learning techniques to learn disturbance descriptors from trajectory data offline as well as the design of adaptive control to estimate and compensate the disturbances online. This paper develops adaptive geometric control for rigid-body systems, such as ground, aerial, and underwater vehicles, that satisfy Hamilton's equations of motion over the SE(3) manifold. Our design consists of an offline system identification stage, followed by an online adaptive control stage. In the first stage, we learn a Hamiltonian model of the system dynamics using a neural ordinary differential equation (ODE) network trained from state-control trajectory data with different disturbance realizations. The disturbances are modeled as a linear combination of nonlinear descriptors. In the second stage, we design a trajectory tracking controller with disturbance compensation from an energy-based perspective. An adaptive control law is employed to adjust the disturbance model online proportional to the geometric tracking errors on the SE(3) manifold. We verify our adaptive geometric controller for trajectory tracking on a fully-actuated pendulum and an under-actuated quadrotor.
翻訳日:2021-09-22 14:07:00 公開日:2021-09-21
# 生成ニューラルネットワークを用いた市場リスクモデルのシナリオ生成

Scenario generation for market risk models using generative neural networks ( http://arxiv.org/abs/2109.10072v1 )

ライセンス: Link先を確認
Solveig Flaig and Gero Junike(参考訳) 本研究では, 経済シナリオジェネレータ(esg)として使用されているgans(generative adversarial network)の既存アプローチを, 保険会社の投資の全体範囲をモデル化する十分なリスクファクターと, ソルバレンシー2で必要とされる1年間を想定して, 内部モデル全体に拡張する方法を示す。 このアプローチの検証とGANアーキテクチャの最適化のために,我々は新しいパフォーマンス対策を開発し,一貫性のあるデータ駆動型フレームワークを提供する。 最後に、GANベースのESGの結果が、ヨーロッパの規制当局が承認した内部モデルと類似していることを示す。 したがって、GANベースのモデルは、仮定のないデータ駆動型市場リスクモデリングの代替方法と見なすことができる。

In this research, we show how to expand existing approaches of generative adversarial networks (GANs) being used as economic scenario generators (ESG) to a whole internal model - with enough risk factors to model the full band-width of investments for an insurance company and for a one year horizon as required in Solvency 2. For validation of this approach as well as for optimisation of the GAN architecture, we develop new performance measures and provide a consistent, data-driven framework. Finally, we demonstrate that the results of a GAN-based ESG are similar to regulatory approved internal models in Europe. Therefore, GAN-based models can be seen as an assumption-free data-driven alternative way of market risk modelling.
翻訳日:2021-09-22 14:06:41 公開日:2021-09-21
# グラフニューラルネットワークの転送可能性:拡張グラフオンアプローチ

Transferability of Graph Neural Networks: an Extended Graphon Approach ( http://arxiv.org/abs/2109.10096v1 )

ライセンス: Link先を確認
Sohir Maskey, Ron Levie and Gitta Kutyniok(参考訳) スペクトルグラフ畳み込みニューラルネットワーク (GCNN) について検討し, フィルタを関数計算によるグラフシフト演算子 (GSO) の連続関数として定義する。 スペクトルGCNNは1つの特定のグラフに調整されず、異なるグラフ間で転送することができる。 したがって、gcnn転送可能性を研究することは重要である:ネットワークの容量は、同じ現象を表す異なるグラフ上でほぼ同じ効果を持つ。 トランスファービリティは、あるグラフでトレーニングされたgcnnが、テストセット内のグラフがトレーニングセット内のグラフと同じ現象を表現しているかを一般化することを保証する。 本稿では,グラフェン解析に基づく移動可能性のモデルについて考察する。 グラフはグラフの極限オブジェクトであり、グラフパラダイムでは、2つのグラフは同じ現象を表す。 私たちの主な貢献は以下のとおりである。 1) 連続フィルタ付き固定GCNNが同じグラフを近似したグラフの下で転送可能であることを示す。 2) 本論文で定義される非有界なグラトンシフト作用素を近似するグラフの転送可能性を証明する。 3)GCNNの線形安定性を示す非漸近近似結果を得た。 これは、有界グラフトンに近似したグラフの下で多項式フィルタの漸近移動性を示す最先端の結果を拡張する。

We study spectral graph convolutional neural networks (GCNNs), where filters are defined as continuous functions of the graph shift operator (GSO) through functional calculus. A spectral GCNN is not tailored to one specific graph and can be transferred between different graphs. It is hence important to study the GCNN transferability: the capacity of the network to have approximately the same repercussion on different graphs that represent the same phenomenon. Transferability ensures that GCNNs trained on certain graphs generalize if the graphs in the test set represent the same phenomena as the graphs in the training set. In this paper, we consider a model of transferability based on graphon analysis. Graphons are limit objects of graphs, and, in the graph paradigm, two graphs represent the same phenomenon if both approximate the same graphon. Our main contributions can be summarized as follows: 1) we prove that any fixed GCNN with continuous filters is transferable under graphs that approximate the same graphon, 2) we prove transferability for graphs that approximate unbounded graphon shift operators, which are defined in this paper, and, 3) we obtain non-asymptotic approximation results, proving linear stability of GCNNs. This extends current state-of-the-art results which show asymptotic transferability for polynomial filters under graphs that approximate bounded graphons.
翻訳日:2021-09-22 14:06:26 公開日:2021-09-21
# (参考訳) BERTをベースとした言語モデルが音声文で何を学ぶか : 実証的研究 [全文訳有]

What BERT Based Language Models Learn in Spoken Transcripts: An Empirical Study ( http://arxiv.org/abs/2109.09105v2 )

ライセンス: CC BY 4.0
Ayush Kumar, Mukuntha Narayanan Sundararaman, Jithendra Vepa(参考訳) 言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクに広く活用されている。 音声言語は、会話の有意義な表現を生成するために、話者の相互作用、対話状態、発話誘発多モーダルな振る舞いを注意深く理解する必要がある。 本研究では,SLUを,会話(拡散,一時停止,オーバートーク),チャンネル(話者型,ターンタスク),ASR(挿入,削除,置換)の3つの代表的な特性に分解することを提案する。 本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。 実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。 マイナス面として、LMはターンタスクとASRエラー予測で低いスコアを得る。 さらに、音声文字によるLMの事前訓練は、その言語的理解を阻害する。 最後に,Switchboard Dialog Act と Disfluency dataset の2つのベンチマークデータセット上で,上記のプロパティの有効性と転送性を確立する。

Language Models (LMs) have been ubiquitously leveraged in various tasks including spoken language understanding (SLU). Spoken language requires careful understanding of speaker interactions, dialog states and speech induced multimodal behaviors to generate a meaningful representation of the conversation. In this work, we propose to dissect SLU into three representative properties:conversat ional (disfluency, pause, overtalk), channel (speaker-type, turn-tasks) and ASR (insertion, deletion,substitutio n). We probe BERT based language models (BERT, RoBERTa) trained on spoken transcripts to investigate its ability to understand multifarious properties in absence of any speech cues. Empirical results indicate that LM is surprisingly good at capturing conversational properties such as pause prediction and overtalk detection from lexical tokens. On the downsides, the LM scores low on turn-tasks and ASR errors predictions. Additionally, pre-training the LM on spoken transcripts restrain its linguistic understanding. Finally, we establish the efficacy and transferability of the mentioned properties on two benchmark datasets: Switchboard Dialog Act and Disfluency datasets.
翻訳日:2021-09-22 12:48:08 公開日:2021-09-21
# (参考訳) 要約の事実整合性評価のためのクラウドソーシングプロトコルの検討 [全文訳有]

Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries ( http://arxiv.org/abs/2109.09195v2 )

ライセンス: CC BY 4.0
Xiangru Tang, Alexander R. Fabbri, Ziming Mao, Griffin Adams, Borui Wang, Haoran Li, Yashar Mehdad, Dragomir Radev(参考訳) 要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾を生じやすい。 したがって、改良されたモデルを開発するためには、要約の事実整合性を比較する必要がある。 しかし,現実整合性のための最適な人的評価設定は標準化されていない。 この問題に対処するため,CNN-Daily Mail と XSum の各データセットから,評価ベースの Likert スケールとランキングベースの Best-Worst Scaling プロトコルを用いて,4つの最先端モデル上で100の項目をクラウドソーシングし,最も信頼性の高い評価フレームワークを決定する。 ランキングベースのプロトコルはデータセット間の要約品質をより信頼性の高い尺度を提供するのに対し、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。 我々のクラウドソーシングテンプレートと要約評価は、要約における事実整合性の研究を促進するために公開される。

Current pre-trained models applied to summarization are prone to factual inconsistencies which either misrepresent the source text or introduce extraneous information. Thus, comparing the factual consistency of summaries is necessary as we develop improved models. However, the optimal human evaluation setup for factual consistency has not been standardized. To address this issue, we crowdsourced evaluations for factual consistency using the rating-based Likert scale and ranking-based Best-Worst Scaling protocols, on 100 articles from each of the CNN-Daily Mail and XSum datasets over four state-of-the-art models, to determine the most reliable evaluation framework. We find that ranking-based protocols offer a more reliable measure of summary quality across datasets, while the reliability of Likert ratings depends on the target dataset and the evaluation design. Our crowdsourcing templates and summary evaluations will be publicly available to facilitate future research on factual consistency in summarization.
翻訳日:2021-09-22 12:30:13 公開日:2021-09-21
# (参考訳) gaussian heatmapsを用いたランドマーク定位におけるアノテーションの不確かさのモデル化 [全文訳有]

Modeling Annotation Uncertainty with Gaussian Heatmaps in Landmark Localization ( http://arxiv.org/abs/2109.09533v2 )

ライセンス: CC BY-SA 4.0
Franz Thaler, Christian Payer, Martin Urschler and Darko Stern(参考訳) ランドマークのローカライゼーションでは、正確な位置を定義するあいまいさのために、ランドマークのアノテーションは大きなオブザーバーの変動に苦しむ可能性がある。 トレーニングデータセットのアノテーションあいまいさをモデル化するために,対象ヒートマップの形状をモデル化した異方性ガウスパラメータを最適化中に学習する。 さらに,提案手法は,推定熱マップに異方性ガウス関数を組み込むことにより,個々のサンプルの予測不確かさをモデル化する。 以上の結果に加えて,手動X線写真と側頭蓋像のデータセットを用いた実験により,ガウス関数が局所化精度と観測変数の相関関係があることが示唆された。 最終実験として,予測位置の不確実性が側頭蓋骨の解剖学的異常の分類に与える影響を計測し,不確実性を意思決定に組み込むことの重要性を示す。

In landmark localization, due to ambiguities in defining their exact position, landmark annotations may suffer from large observer variabilities, which result in uncertain annotations. To model the annotation ambiguities of the training dataset, we propose to learn anisotropic Gaussian parameters modeling the shape of the target heatmap during optimization. Furthermore, our method models the prediction uncertainty of individual samples by fitting anisotropic Gaussian functions to the predicted heatmaps during inference. Besides state-of-the-art results, our experiments on datasets of hand radiographs and lateral cephalograms also show that Gaussian functions are correlated with both localization accuracy and observer variability. As a final experiment, we show the importance of integrating the uncertainty into decision making by measuring the influence of the predicted location uncertainty on the classification of anatomical abnormalities in lateral cephalograms.
翻訳日:2021-09-22 12:20:19 公開日:2021-09-21
# (参考訳) ロボットを信じて! スパースガウス過程を用いたニューラルネットワークの予測不確かさ推定 [全文訳有]

Trust Your Robots! Predictive Uncertainty Estimation of Neural Networks with Sparse Gaussian Processes ( http://arxiv.org/abs/2109.09690v2 )

ライセンス: CC BY 4.0
Jongseok Lee, Jianxiang Feng, Matthias Humt, Marcus G. M\"uller, Rudolph Triebel(参考訳) 本稿では,Deep Neural Networks (DNN) を用いた予測において,信頼性と高速不確実性の両方を推定する確率的枠組みを提案する。 我々の主な貢献は、DNNとスパースガウスプロセス(GP)の実用的で原則化された組み合わせである。 我々は,DNNが,GPエキスパート(MoE-GP)の混合であるスパースGPの特殊な場合と見なせることを理論的に証明し,その導出理論を実践する学習アルゴリズムを考案する。 小型航空機(MAV)におけるマニピュレータの逆ダイナミクスと物体検出の2つの異なるロボットタスクによる実験において,Jetson TX2における予測不確実性,スケーラビリティの向上,実行時の効率性の観点から,我々のアプローチの有効性を示す。 したがって、このアプローチは、不確実性を意識した信頼性が高く高速なロボット学習システムへの道を開くことができると論じている。

This paper presents a probabilistic framework to obtain both reliable and fast uncertainty estimates for predictions with Deep Neural Networks (DNNs). Our main contribution is a practical and principled combination of DNNs with sparse Gaussian Processes (GPs). We prove theoretically that DNNs can be seen as a special case of sparse GPs, namely mixtures of GP experts (MoE-GP), and we devise a learning algorithm that brings the derived theory into practice. In experiments from two different robotic tasks -- inverse dynamics of a manipulator and object detection on a micro-aerial vehicle (MAV) -- we show the effectiveness of our approach in terms of predictive uncertainty, improved scalability, and run-time efficiency on a Jetson TX2. We thus argue that our approach can pave the way towards reliable and fast robot learning systems with uncertainty awareness.
翻訳日:2021-09-22 11:50:21 公開日:2021-09-21
# (参考訳) ストリーミングデータから動的システムを予測する学習 [全文訳有]

Learning to Forecast Dynamical Systems from Streaming Data ( http://arxiv.org/abs/2109.09703v2 )

ライセンス: CC BY 4.0
Dimitris Giannakis, Amelia Henriksen, Joel A. Tropp, and Rachel Ward(参考訳) カーネルアナログ予測 (kernel analog forecasting, kaf) は、動的に生成された時系列データのデータ駆動、非パラメトリック予測のための強力な手法である。 このアプローチはクープマン作用素理論において厳密な基礎を持ち、実際には良好な予測を生成するが、カーネル法に共通する計算コストに苦しむ。 本稿では,訓練データに対する単一パスのみを必要とするkafのストリーミングアルゴリズムを提案する。 このアルゴリズムは、予測スキルを犠牲にすることなく、トレーニングと予測のコストを劇的に削減する。 計算実験により、ストリーミングKAF法は、データスカースとデータリッチレジームの両方において、数種類の動的システム(周期性、準周期性、カオス性)を予測できることを示した。 全体的な方法論は、ストリーミングカーネル回帰の新しいテンプレートとして、より広い関心を持っているかもしれない。

Kernel analog forecasting (KAF) is a powerful methodology for data-driven, non-parametric forecasting of dynamically generated time series data. This approach has a rigorous foundation in Koopman operator theory and it produces good forecasts in practice, but it suffers from the heavy computational costs common to kernel methods. This paper proposes a streaming algorithm for KAF that only requires a single pass over the training data. This algorithm dramatically reduces the costs of training and prediction without sacrificing forecasting skill. Computational experiments demonstrate that the streaming KAF method can successfully forecast several classes of dynamical systems (periodic, quasi-periodic, and chaotic) in both data-scarce and data-rich regimes. The overall methodology may have wider interest as a new template for streaming kernel regression.
翻訳日:2021-09-22 11:32:20 公開日:2021-09-21
# 未来AI : 将来医療画像における信頼できる人工知能の原則とコンセンサス勧告

FUTURE-AI: Guiding Principles and Consensus Recommendations for Trustworthy Artificial Intelligence in Future Medical Imaging ( http://arxiv.org/abs/2109.09658v2 )

ライセンス: Link先を確認
Karim Lekadir, Richard Osuala, Catherine Gallin, Noussair Lazrak, Kaisar Kushibar, Gianna Tsakou, Susanna Auss\'o, Leonor Cerd\'a Alberich, Konstantinos Marias, Manolis Tskinakis, Sara Colantonio, Nickolas Papanikolaou, Zohaib Salahuddin, Henry C Woodruff, Philippe Lambin, Luis Mart\'i-Bonmat\'i(参考訳) 人工知能(AI)の最近の進歩は、今日の臨床システムによって生成される膨大なデータと相まって、画像再構成、医用画像分割、画像ベースの診断、治療計画を含む、医療画像のバリューチェーン全体にわたる画像AIソリューションの開発につながっている。 医療画像におけるaiの成功と将来の可能性にかかわらず、多くの利害関係者は、複雑で不透明で、重要な臨床応用に対する理解、利用、信頼が難しいと認識されるaiソリューションの潜在的なリスクと倫理的意味を懸念している。 これらの懸念とリスクにもかかわらず、医療画像における将来のAI開発を信頼、安全性、採用を高めるための具体的なガイドラインやベストプラクティスは今のところ存在しない。 このギャップを埋めるため,本稿では,欧州の5つの大規模健康イメージングプロジェクトから蓄積された経験,コンセンサス,ベストプラクティスから導かれた指針の慎重に選択する。 これらの指針はfuture-aiと呼ばれ、その構成要素は (i)公平さ。 (ii)普遍性 (iii)トレーサビリティ (4)ユーザビリティ (v)堅牢性と (vi)説明可能。 ステップバイステップアプローチでは、これらのガイドラインは、技術的、臨床的、倫理的に信頼できるAIソリューションを臨床実践に特定、開発、評価、デプロイするための具体的な勧告のフレームワークにさらに変換される。

The recent advancements in artificial intelligence (AI) combined with the extensive amount of data generated by today's clinical systems, has led to the development of imaging AI solutions across the whole value chain of medical imaging, including image reconstruction, medical image segmentation, image-based diagnosis and treatment planning. Notwithstanding the successes and future potential of AI in medical imaging, many stakeholders are concerned of the potential risks and ethical implications of imaging AI solutions, which are perceived as complex, opaque, and difficult to comprehend, utilise, and trust in critical clinical applications. Despite these concerns and risks, there are currently no concrete guidelines and best practices for guiding future AI developments in medical imaging towards increased trust, safety and adoption. To bridge this gap, this paper introduces a careful selection of guiding principles drawn from the accumulated experiences, consensus, and best practices from five large European projects on AI in Health Imaging. These guiding principles are named FUTURE-AI and its building blocks consist of (i) Fairness, (ii) Universality, (iii) Traceability, (iv) Usability, (v) Robustness and (vi) Explainability. In a step-by-step approach, these guidelines are further translated into a framework of concrete recommendations for specifying, developing, evaluating, and deploying technically, clinically and ethically trustworthy AI solutions into clinical practice.
翻訳日:2021-09-22 10:54:10 公開日:2021-09-21
# スパースLiDARによる自己教師付き単眼深度学習の促進

Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR ( http://arxiv.org/abs/2109.09628v2 )

ライセンス: Link先を確認
Ziyue Feng, Longlong Jing, Peng Yin, Yingli Tian, Bing Li(参考訳) 自己教師付き単眼深度予測は、各ピクセルの3D位置を求めるためのコスト効率の良いソリューションを提供する。 しかし、既存のアプローチは一般的には不十分な精度につながり、自律ロボットにとって重要である。 本稿では,低コストスパース(例えば4ビーム)LiDARを利用して,自己教師付き単分子深度学習を進めるための2段階ネットワークを提案する。 スパースLiDARを主に時間を要する反復的後処理で使用する既存の手法とは異なり,本モデルは単眼画像特徴とスパースLiDAR特徴を融合させて初期深度マップを推定する。 さらに, 擬似3次元空間における初期深度マップの誤りをリアルタイムに補正するために, 効率的なフィードフォワード精細ネットワークを設計する。 大規模実験により,提案手法は, 自己教師付き単分子深度予測および完了タスクにおけるスパース-LiDAR法と同様に, 最先端の自己教師付き手法を著しく上回ることがわかった。 精度の高い深度予測を行うことで,KITTIリーダボード上の下流タスク単眼3Dオブジェクト検出において,最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。

Self-supervised monocular depth prediction provides a cost-effective solution to obtain the 3D location of each pixel. However, the existing approaches usually lead to unsatisfactory accuracy, which is critical for autonomous robots. In this paper, we propose a novel two-stage network to advance the self-supervised monocular dense depth learning by leveraging low-cost sparse (e.g. 4-beam) LiDAR. Unlike the existing methods that use sparse LiDAR mainly in a manner of time-consuming iterative post-processing, our model fuses monocular image features and sparse LiDAR features to predict initial depth maps. Then, an efficient feed-forward refine network is further designed to correct the errors in these initial depth maps in pseudo-3D space with real-time performance. Extensive experiments show that our proposed model significantly outperforms all the state-of-the-art self-supervised methods, as well as the sparse-LiDAR-based methods on both self-supervised monocular depth prediction and completion tasks. With the accurate dense depth prediction, our model outperforms the state-of-the-art sparse-LiDAR-based method (Pseudo-LiDAR++) by more than 68% for the downstream task monocular 3D object detection on the KITTI Leaderboard.
翻訳日:2021-09-22 10:53:45 公開日:2021-09-21
# スケールでのニューラル予測

Neural forecasting at scale ( http://arxiv.org/abs/2109.09705v2 )

ライセンス: Link先を確認
Philippe Chatigny, Shengrui Wang Jean-Marc Patenaude, Boris N. Oreshkin(参考訳) 本研究では,時系列予測のためのアンサンブル型深層ニューラルネットワークの効率良くスケーリングする問題について検討する。 現在の最先端のディープアンサンブルモデルでは、メモリと計算の要求が高く、現実的なシナリオでは数百万のTSを予測できない。 N-BEATS(P)は、複数の単変量TS予測モデルの同時学習を可能にするために設計されたN-BEATSモデルのグローバル多変量変種である。 本モデルでは,学習時間を半減し,メモリ要件を5倍に抑えるとともに,同一レベルの精度を維持しながら,関連モデルの実用的限界に対処する。 我々は、モデルをトレーニングする方法を詳細に説明した複数の実験を行い、ゼロショットTS予測をサポートする能力、すなわち、ソースTSデータセット上でニューラルネットワークをトレーニングし、リトレーニングなしで異なるターゲットTSデータセットにデプロイする能力を示す結果を得た。

We study the problem of efficiently scaling ensemble-based deep neural networks for time series (TS) forecasting on a large set of time series. Current state-of-the-art deep ensemble models have high memory and computational requirements, hampering their use to forecast millions of TS in practical scenarios. We propose N-BEATS(P), a global multivariate variant of the N-BEATS model designed to allow simultaneous training of multiple univariate TS forecasting models. Our model addresses the practical limitations of related models, reducing the training time by half and memory requirement by a factor of 5, while keeping the same level of accuracy. We have performed multiple experiments detailing the various ways to train our model and have obtained results that demonstrate its capacity to support zero-shot TS forecasting, i.e., to train a neural network on a source TS dataset and deploy it on a different target TS dataset without retraining, which provides an efficient and reliable solution to forecast at scale even in difficult forecasting conditions.
翻訳日:2021-09-22 10:53:24 公開日:2021-09-21
# decoras: 深層学習による電波放射源の検出と特性評価

DECORAS: detection and characterization of radio-astronomical sources using deep learning ( http://arxiv.org/abs/2109.09077v2 )

ライセンス: Link先を確認
S.Rezaei, J.P.McKean, M.Biehl, A.Javadpour(参考訳) 我々は,VLBI(Very Long Baseline Interferometry)観測から遠点と遠点の両方を検出する深層学習に基づくDECRASを提案する。 当社のアプローチは,低数の畳み込みレイヤを使用してソース検出にスケーラブルなソリューションを提供する,エンコーダ・デコーダニューラルネットワークアーキテクチャに基づいている。 さらに、DECRASは、検出されたソースの位置、有効半径、ピーク輝度の観点から、ソース特性を実行する。 実時間20cmのVLBA(Very Long Baseline Array)観測に基づく画像を用いて,ネットワークを訓練し,実験を行った。 また、これらの画像は事前の非畳み込みステップを通さず、フーリエ変換を介して可視データに直接関連している。 DeCORASが生成するソースカタログは,従来のソース検出アルゴリズムと比較して,全体的な完全性や純粋性に優れていた。 DECORASは7.5$\sigma$レベルで完備であり、信頼性は5.5$\sigma$でほぼ2倍改善されている。 DECORASは検出されたソースの位置を0.61$\pm$ 0.69 masに復元でき、有効半径とピーク表面の明るさはそれぞれ98および94パーセントで20%以内に回収される。 全体として、DECORASは将来の広視野VLBIサーベイに信頼性の高いソース検出および特徴付けソリューションを提供する。

We present DECORAS, a deep learning based approach to detect both point and extended sources from Very Long Baseline Interferometry (VLBI) observations. Our approach is based on an encoder-decoder neural network architecture that uses a low number of convolutional layers to provide a scalable solution for source detection. In addition, DECORAS performs source characterization in terms of the position, effective radius and peak brightness of the detected sources. We have trained and tested the network with images that are based on realistic Very Long Baseline Array (VLBA) observations at 20 cm. Also, these images have not gone through any prior de-convolution step and are directly related to the visibility data via a Fourier transform. We find that the source catalog generated by DECORAS has a better overall completeness and purity, when compared to a traditional source detection algorithm. DECORAS is complete at the 7.5$\sigma$ level, and has an almost factor of two improvement in reliability at 5.5$\sigma$. We find that DECORAS can recover the position of the detected sources to within 0.61 $\pm$ 0.69 mas, and the effective radius and peak surface brightness are recovered to within 20 per cent for 98 and 94 per cent of the sources, respectively. Overall, we find that DECORAS provides a reliable source detection and characterization solution for future wide-field VLBI surveys.
翻訳日:2021-09-22 10:53:07 公開日:2021-09-21
# 感情要因に着目した共感反応生成の視点と実践

Perspective-taking and Pragmatics for Generating Empathetic Responses Focused on Emotion Causes ( http://arxiv.org/abs/2109.08828v2 )

ライセンス: Link先を確認
Hyunwoo Kim, Byeongchang Kim, Gunhee Kim(参考訳) 共感は、他人の感情状態の推論に基づく複雑な認知能力である。 他者をよりよく理解し、対話においてより強い共感を示すためには、同時に2つの問題に取り組む必要があると論じる。 (i)相手の発声から相手の感情の原因となる単語を識別すること。 (ii)応答生成中の特定の単語を反映する。 しかし、感情を認識する以前のアプローチでは、テキスト中の単語を認識するには、サブ発話レベルのアノテーションが必要である。 社会的認知から着想を得て,生成的推定器を用いて単語レベルラベルのない発話から感情を推定する。 また,対話モデルが入力中の対象語に焦点を合わせられるように,実用的手法に基づく新しい手法を提案する。 本手法は,任意の対話モデルに適用できるが,追加の訓練は行わない。 提案手法は,自動評価と人間評価の両方の観点から,より集中した共感応答を生成することにより,複数のベストパフォーマンス対話エージェントを改善する。

Empathy is a complex cognitive ability based on the reasoning of others' affective states. In order to better understand others and express stronger empathy in dialogues, we argue that two issues must be tackled at the same time: (i) identifying which word is the cause for the other's emotion from his or her utterance and (ii) reflecting those specific words in the response generation. However, previous approaches for recognizing emotion cause words in text require sub-utterance level annotations, which can be demanding. Taking inspiration from social cognition, we leverage a generative estimator to infer emotion cause words from utterances with no word-level label. Also, we introduce a novel method based on pragmatics to make dialogue models focus on targeted words in the input during generation. Our method is applicable to any dialogue models with no additional training on the fly. We show our approach improves multiple best-performing dialogue agents on generating more focused empathetic responses in terms of both automatic and human evaluation.
翻訳日:2021-09-22 10:52:42 公開日:2021-09-21
# 深部畳み込みニューラルネットワークを用いたCCTVを用いた現代社会のリアルタイムトラッシュ検出

Real-Time Trash Detection for Modern Societies using CCTV to Identifying Trash by utilizing Deep Convolutional Neural Network ( http://arxiv.org/abs/2109.09611v2 )

ライセンス: Link先を確認
Syed Muhammad Raza, Syed Muhammad Ghazi Hassan, Syed Ali Hassan, Soo Young Shin(参考訳) 環境を特に社会におけるゴミ汚染から保護し、ゴミを捨てる赤毛の人々に対して厳格な措置を講じる。 現代の社会が発展し、これらの社会は環境をきれいにするために現代的な解決策を必要としている。 人工知能(AI)の進化は、特にディープラーニングにおいて、CCTVカメラを使用してリアルタイムのゴミ検出を開発する素晴らしい機会を提供する。 このプロジェクトに含まれるのは,畳み込みニューラルネットワーク(CNN)の深層モデルを用いたリアルタイムゴミ検出である。 8種類のマスク、ティッシュペーパー、買い物客、箱、自動車部品、パンパー、ボトル、ジュースボックスを入手するために使用される。 ゴミを検知した後、カメラはその人のビデオを社会に捨てた10秒間記録する。 この論文の難しい部分は、あまりにも多くの時間を要する複雑なカスタムデータセットを作成することです。 データセットは2100以上の画像で構成されている。 CNNモデルは作成、ラベル付け、訓練された。 検出時間精度と平均平均精度(mAP)は両方のモデルのパフォーマンスをベンチマークする。 実験段階において, 改良型CNNモデルのmAP性能と精度は, すべてにおいて優れていた。 このモデルはCCTVカメラでリアルタイムでゴミを検出するために使用される。

To protect the environment from trash pollution, especially in societies, and to take strict action against the red-handed people who throws the trash. As modern societies are developing and these societies need a modern solution to make the environment clean. Artificial intelligence (AI) evolution, especially in Deep Learning, gives an excellent opportunity to develop real-time trash detection using CCTV cameras. The inclusion of this project is real-time trash detection using a deep model of Convolutional Neural Network (CNN). It is used to obtain eight classes mask, tissue papers, shoppers, boxes, automobile parts, pampers, bottles, and juices boxes. After detecting the trash, the camera records the video of that person for ten seconds who throw trash in society. The challenging part of this paper is preparing a complex custom dataset that took too much time. The dataset consists of more than 2100 images. The CNN model was created, labeled, and trained. The detection time accuracy and average mean precision (mAP) benchmark both models' performance. In experimental phase the mAP performance and accuracy of the improved CNN model was superior in all aspects. The model is used on a CCTV camera to detect trash in real-time.
翻訳日:2021-09-22 10:52:24 公開日:2021-09-21
# 再現性研究:ニューラルネットワークの刈り取りにおける巻き戻しと微調整の比較

Reproducibility Study: Comparing Rewinding and Fine-tuning in Neural Network Pruning ( http://arxiv.org/abs/2109.09670v2 )

ライセンス: Link先を確認
Szymon Mikler (Uniwersytet Wroc{\l}awski)(参考訳) 再現性のスコープ: arXiv:2003.02389のニューラルネットワークにおける再巻き戻しと微調整の比較を再現する。 この研究では、プルーニング後にニューラルネットワークを再トレーニングするための3つの異なるアプローチを比較した。 1)微調整。 2 arXiv:1803.03635及び 3)Lottery Ticket仮説に基づく学習率の巻き戻しを含む,新たなオリジナル手法。 我々はこれら3つの手法の成果を再現するが,本手法は新たに提案され,他の手法に対する普遍的な代替手段として記述されているため,そのアプローチの検証,学習率の逆転に重点を置いている。 我々はCIFAR10をほとんどの複製に使用し、CIFAR100のさらなる実験を行った。 また、テスト対象のネットワークアーキテクチャのリストを拡張して、Wide ResNetsを含むようにしました。 新たな実験により,大規模なアーキテクチャにおいて,学習率の巻き戻しの限界を見出すことができた。 結果: 著者が報告した正確な結果を, 当初報告したすべてのシナリオで再現することができた。 しかし、より大きなワイド残留ネットワークにおける拡張結果は、新しく提案された学習率の巻き戻しの限界を実証している。 しかし、この論文の一般的な結論はまだ保たれており、実際に再現された。

Scope of reproducibility: We are reproducing Comparing Rewinding and Fine-tuning in Neural Networks from arXiv:2003.02389. In this work the authors compare three different approaches to retraining neural networks after pruning: 1) fine-tuning, 2) rewinding weights as in arXiv:1803.03635 and 3) a new, original method involving learning rate rewinding, building upon Lottery Ticket Hypothesis. We reproduce the results of all three approaches, but we focus on verifying their approach, learning rate rewinding, since it is newly proposed and is described as a universal alternative to other methods. We used CIFAR10 for most reproductions along with additional experiments on the larger CIFAR100, which extends the results originally provided by the authors. We have also extended the list of tested network architectures to include Wide ResNets. The new experiments led us to discover the limitations of learning rate rewinding which can worsen pruning results on large architectures. Results: We were able to reproduce the exact results reported by the authors in all originally reported scenarios. However, extended results on larger Wide Residual Networks have demonstrated the limitations of the newly proposed learning rate rewinding -- we observed a previously unreported accuracy degradation for low sparsity ranges. Nevertheless, the general conclusion of the paper still holds and was indeed reproduced.
翻訳日:2021-09-22 10:52:08 公開日:2021-09-21
# 個人認識型ダウンサンプリングとマルチモーダル学習に基づく自閉症スペクトラム障害の同定

Identifying Autism Spectrum Disorder Based on Individual-Aware Down-Sampling and Multi-Modal Learning ( http://arxiv.org/abs/2109.09129v2 )

ライセンス: Link先を確認
Li Pan, Jundong Liu, Mingqin Shi, Chi Wah Wong, Kei Hang Katie Chan(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、患者の社会的能力に影響を与える神経発達状態のセットである。 近年,機能的MRI(fMRI)を用いた深層学習法が採用されている。 しかし、既存のアプローチは異常な脳機能結合のみに集中しているが、地域活動の重要性を無視している。 このような事前知識の偏りから、従来の診断モデルは、部位間不均一性と個人間表現型差に悩まされていた。 そこで本研究では,機能的接続と局所活動の両方に関して,脳ネットワーク全体のパーソナライズされた低解像度表現を学習できるfMRIの特徴抽出手法を提案する。 まず、我々は脳画像をグラフ構造として抽象化し、ノードは脳の領域を表し、エッジは機能的な接続を表し、階層的なグラフプーリングによってスパースネットワークに分解する。 次に、各対象に抽出された特徴とビルディングエッジを割り当てることにより、個体群グラフを構築する。 非同一分散ノード機能は、グラフ畳み込みネットワークによって学習されたノード埋め込みにさらに再分類される。 これらの方法により,本フレームワークはfMRI全体から直接的かつ効率的に特徴を抽出し,暗黙の個人間差を認識できる。 ABIDE-Iデータセットのフレームワークを10倍のクロスバリデーションで評価した。 本モデルでは,平均分類精度85.95\%,平均AUC0.92を達成している。

Autism Spectrum Disorder(ASD) is a set of neurodevelopmental conditions that affect patients' social abilities. In recent years, deep learning methods have been employed to detect ASD through functional MRI (fMRI). However, existing approaches solely concentrated on the abnormal brain functional connections but ignored the importance of regional activities. Due to this biased prior knowledge, previous diagnosis models suffered from inter-site heterogeneity and inter-individual phenotypical differences. To address this issue, we propose a novel feature extraction method for fMRI that can learn a personalized lowe-resolution representation of the entire brain networking regarding both the functional connections and regional activities. First, we abstract the brain imaging as a graph structure, where nodes represent brain areas and edges denote functional connections, and downsample it to a sparse network by hierarchical graph pooling. Subsequently, by assigning each subject with the extracted features and building edges through inter-individual non-imaging characteristics, we build a population graph. The non-identically distributed node features are further recalibrated to node embeddings learned by graph convolutional networks. By these means, our framework can extract features directly and efficiently from the entire fMRI and be aware of implicit inter-individual differences. We have evaluated our framework on the ABIDE-I dataset with 10-fold cross-validation. The present model has achieved a mean classification accuracy of 85.95\% and a mean AUC of 0.92, which is better than the state-of-the-art methods.
翻訳日:2021-09-22 10:51:46 公開日:2021-09-21
# パンシャープ化のための教師なしサイクル整合生成逆ネットワーク

Unsupervised Cycle-consistent Generative Adversarial Networks for Pan-sharpening ( http://arxiv.org/abs/2109.09395v2 )

ライセンス: Link先を確認
Huanyu Zhou, Qingjie Liu, and Yunhong Wang(参考訳) 近年, 深層学習に基づくパン・シャーペニングが研究の関心を集めている。 既存の手法のほとんどは、マルチスペクトル(MS)とパンクロマティック(PAN)の画像をダウンサンプリングする教師あり学習フレームワークに該当し、元のMSイメージを基底真理とみなしてトレーニングサンプルを形成する。 印象的な性能は達成できたが、スケールギャップのため、元のフルスケールイメージへの一般化が困難であり、実用性に欠ける。 本稿では,真理を欠いた実物大画像から学習し,この問題を解消する,教師なし生成型敵フレームワークを提案する。 PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。 さらに,サイクル整合性および対向性に基づく新たなハイブリッド損失を導入し,性能向上を図る。 最新技術との比較実験はgaofen-2とworldview-3の衛星で行われている。 その結果,本手法は実画像のパンシャーピング性能を大幅に向上させることができることがわかった。 コードとデータセットは公開される予定だ。

Deep learning based pan-sharpening has received significant research interest in recent years. Most of existing methods fall into the supervised learning framework in which they down-sample the multi-spectral (MS) and panchromatic (PAN) images and regard the original MS images as ground truths to form training samples. Although impressive performance could be achieved, they have difficulties generalizing to the original full-scale images due to the scale gap, which makes them lack of practicability. In this paper, we propose an unsupervised generative adversarial framework that learns from the full-scale images without the ground truths to alleviate this problem. We extract the modality-specific features from the PAN and MS images with a two-stream generator, perform fusion in the feature domain, and then reconstruct the pan-sharpened images. Furthermore, we introduce a novel hybrid loss based on the cycle-consistency and adversarial scheme to improve the performance. Comparison experiments with the state-of-the-art methods are conducted on GaoFen-2 and WorldView-3 satellites. Results demonstrate that the proposed method can greatly improve the pan-sharpening performance on the full-scale images, which clearly show its practical value. Codes and datasets will be made publicly available.
翻訳日:2021-09-22 10:51:22 公開日:2021-09-21
# 自動運転におけるコーナーケースの記述--目標と課題

Description of Corner Cases in Automated Driving: Goals and Challenges ( http://arxiv.org/abs/2109.09607v2 )

ライセンス: Link先を確認
Daniel Bogdoll, Jasmin Breitenstein, Florian Heidecker, Maarten Bieshaar, Bernhard Sick, Tim Fingscheidt, J. Marius Z\"ollner(参考訳) 自動車両の分布を拡大するには、様々な予期せぬ危険な状況、すなわちコーナーケース(CC)を扱う必要がある。 自動運転システムの多くのモジュールは機械学習(ml)に基づいているため、ccはその開発に必要なデータの重要な部分である。 しかし、大規模なデータ収集には限られた量のCCデータしか存在しないため、MLの文脈では困難である。 CCをよりよく理解することで、データセット分析やオンライン手法、例えば自動運転システムの性能向上といったオフラインアプリケーションが改善される。 ccには知識に基づく記述と分類があるが、機械解釈可能な記述についての研究はほとんどない。 この拡張要約では、このような説明の課題と目標について、簡単に概要を説明します。

Scaling the distribution of automated vehicles requires handling various unexpected and possibly dangerous situations, termed corner cases (CC). Since many modules of automated driving systems are based on machine learning (ML), CC are an essential part of the data for their development. However, there is only a limited amount of CC data in large-scale data collections, which makes them challenging in the context of ML. With a better understanding of CC, offline applications, e.g., dataset analysis, and online methods, e.g., improved performance of automated driving systems, can be improved. While there are knowledge-based descriptions and taxonomies for CC, there is little research on machine-interpretabl e descriptions. In this extended abstract, we will give a brief overview of the challenges and goals of such a description.
翻訳日:2021-09-22 10:51:03 公開日:2021-09-21
# 効率的な視覚音分離のためのV-SlowFastネットワーク

V-SlowFast Network for Efficient Visual Sound Separation ( http://arxiv.org/abs/2109.08867v2 )

ライセンス: Link先を確認
Lingyu Zhu and Esa Rahtu(参考訳) 本論文の目的は,視聴覚分離を行うことである。 一 時間分解能の異なる分光図における視覚的音分離の研究。 2)視覚フレーム,スロースペクトログラム,高速スペクトログラムで動作する,軽量で効率的な3ストリームフレームワーク V-SlowFast を提案する。 Slow Spectrogramは粗い時間分解能を捉え、Fast Spectrogramは微細な時間分解能を含む。 三 音声分離のための識別的視覚特徴の学習をネットワークに促すための2つの対比目的について紹介する。 iv)音声・視覚機能融合のための視聴覚グローバルアテンションモジュールを提案する。 v) 導入したV-SlowFastモデルは,MUSIC-21,AVV,VGG-So undといった小規模・大規模データセット上で,単一フレームによる視覚的音源分離において,先行技術よりも優れていた。 また,従来のマルチステージモデルと比較してモデルパラメータの74.2%削減,GMACの81.4%削減を実現した小型なV-SlowFastアーキテクチャ変種を提案する。 プロジェクトページ: https://ly-zhu.githu b.io/V-SlowFast

The objective of this paper is to perform visual sound separation: i) we study visual sound separation on spectrograms of different temporal resolutions; ii) we propose a new light yet efficient three-stream framework V-SlowFast that operates on Visual frame, Slow spectrogram, and Fast spectrogram. The Slow spectrogram captures the coarse temporal resolution while the Fast spectrogram contains the fine-grained temporal resolution; iii) we introduce two contrastive objectives to encourage the network to learn discriminative visual features for separating sounds; iv) we propose an audio-visual global attention module for audio and visual feature fusion; v) the introduced V-SlowFast model outperforms previous state-of-the-art in single-frame based visual sound separation on small- and large-scale datasets: MUSIC-21, AVE, and VGG-Sound. We also propose a small V-SlowFast architecture variant, which achieves 74.2% reduction in the number of model parameters and 81.4% reduction in GMACs compared to the previous multi-stage models. Project page: https://ly-zhu.githu b.io/V-SlowFast
翻訳日:2021-09-22 10:50:51 公開日:2021-09-21
# RBFニューラルネットワークを用いた定流量並列マイクロポンプの最適化

The Optimization of the Constant Flow Parallel Micropump Using RBF Neural Network ( http://arxiv.org/abs/2109.08717v2 )

ライセンス: Link先を確認
Chenyang Ma, Boyuan Xu(参考訳) 本研究の目的は, 並列ポンプ室を備え, 受動チェックバルブを組み込んだ定流並列機械変位マイクロポンプの性能を最適化することである。 重要な課題は、左ポンプと右ポンプが吸引と輸血の役割を交互に交わすときの往復運動中に一定の流量に負の影響を及ぼす逆流による圧力パルスを最小化することである。 従来は受動チェックバルブの機械設計でこの問題を解決しようとしていた。 本研究では,教師なし学習と教師なし学習の両方で訓練されたrbfニューラルネットワークを実装することで,制御理論の観点から新たなオーバーラップ時間の概念を提案する。 実験結果から, 圧力パルスは0.15MPaから0.25MPaの範囲で最適化され, 40MPaの最大ポンプ加工圧力と比較して大きな改善が認められた。

The objective of this work is to optimize the performance of a constant flow parallel mechanical displacement micropump, which has parallel pump chambers and incorporates passive check valves. The critical task is to minimize the pressure pulse caused by regurgitation, which negatively impacts the constant flow rate, during the reciprocating motion when the left and right pumps interchange their role of aspiration and transfusion. Previous works attempt to solve this issue via the mechanical design of passive check valves. In this work, the novel concept of overlap time is proposed, and the issue is solved from the aspect of control theory by implementing a RBF neural network trained by both unsupervised and supervised learning. The experimental results indicate that the pressure pulse is optimized in the range of 0.15 - 0.25 MPa, which is a significant improvement compared to the maximum pump working pressure of 40 MPa.
翻訳日:2021-09-22 10:50:33 公開日:2021-09-21