このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210831となっている論文です。

PDF登録状況(公開日: 20210831)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 補助テキストを用いた名前付きエンティティ認識のためのマルチタスクトリプルト損失 [全文訳有]

Multi-Task Triplet Loss for Named Entity Recognition using Supplementary Text ( http://arxiv.org/abs/2109.13736v1 )

ライセンス: CC BY 4.0
Ryan Siskind, Shalin Shah(参考訳) 小売商品データには、項目のタイトル、項目の説明、項目名、レビューなど、多くの異なる形式のテキストが含まれている。 名前付きエンティティタグを使用して、他の形式のテキストでアイテム名を識別することは興味深い。 しかし、項目の題名とその記述が構文的に異なる(しかし意味的に類似している)ため、その題名は必ずしもよく形成された文ではなく、記述はよく形成された文で構成されている。 本研究では,概念の証明を確立するために,項目タイトルの埋め込みと記述との対比に三重項損失を用いる。 マルチタスクNERアルゴリズムにおける三重項損失を用いることで、精度とリコールの両面を小さなパーセンテージで向上することがわかった。 改善は小さいが、マルチタスクアルゴリズムで様々な形式のテキストを使用するための正しい方向への一歩であると考えている。 精度とリコールに加えて、マルチタスク三重項損失法(multi task triplet loss method)は、正確なマッチング精度、すなわち、テキスト中のトークンのセット全体を正しいタグでタグ付けする精度を大幅に向上させる。

Retail item data contains many different forms of text like the title of an item, the description of an item, item name and reviews. It is of interest to identify the item name in the other forms of text using a named entity tagger. However, the title of an item and its description are syntactically different (but semantically similar) in that the title is not necessarily a well formed sentence while the description is made up of well formed sentences. In this work, we use a triplet loss to contrast the embeddings of the item title with the description to establish a proof of concept. We find that using the triplet loss in a multi-task NER algorithm improves both the precision and recall by a small percentage. While the improvement is small, we think it is a step in the right direction of using various forms of text in a multi-task algorithm. In addition to precision and recall, the multi task triplet loss method is also found to significantly improve the exact match accuracy i.e. the accuracy of tagging the entire set of tokens in the text with correct tags.
翻訳日:2021-10-03 13:25:59 公開日:2021-08-31
# (参考訳) arat5:アラビア語理解と生成のためのテキストからテキストへのトランスフォーマー [全文訳有]

AraT5: Text-to-Text Transformers for Arabic Language Understanding and Generation ( http://arxiv.org/abs/2109.12068v1 )

ライセンス: CC BY 4.0
El Moatez Billah Nagoudi and AbdelRahim Elmadany and Muhammad Abdul-Mageed(参考訳) すべての言語問題をテキストからテキストに変換する統合トランスフォーマーフレームワーク(T5)によるトランスファーラーニングは、最近、シンプルだが効果的でトランスファーラーニングアプローチとして提案されている。 T5 モデルの多言語版 (mT5) が導入されたが、多種多様なデータを含む非英語タスクにどの程度うまく対応できるかは明らかではない。 この問題を調査するため、多種多様な方言を持つ言語にmT5を適用する。 評価には、アラビア語理解のための既存のベンチマークを使用し、アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。 また、アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前訓練し、2つのベンチマークで評価する。 我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。 モデルは生成ベンチマークに新しいSOTAも設定した。 我々の新しいモデルはhttps://github.com/U BC-NLP/araT5で公開され、ARLGEは同じリポジトリからリリースされる。

Transfer learning with a unified Transformer framework (T5) that converts all language problems into a text-to-text format has recently been proposed as a simple, yet effective, transfer learning approach. Although a multilingual version of the T5 model (mT5) has been introduced, it is not clear how well it can fare on non-English tasks involving diverse data. To investigate this question, we apply mT5 on a language with a wide variety of dialects--Arabic. For evaluation, we use an existing benchmark for Arabic language understanding and introduce a new benchmark for Arabic language generation (ARGEN). We also pre-train three powerful Arabic-specific text-to-text Transformer based models and evaluate them on the two benchmarks. Our new models perform significantly better than mT5 and exceed MARBERT, the current state-of-the-art Arabic BERT-based model, on Arabic language understanding. The models also set new SOTA on the generation benchmark. Our new models and are publicly released at https://github.com/U BC-NLP/araT5 and ARLGE will be released through the same repository.
翻訳日:2021-10-03 13:23:03 公開日:2021-08-31
# (参考訳) 実証AI研究のためのリーダーボードの自動マイニング [全文訳有]

Automated Mining of Leaderboards for Empirical AI Research ( http://arxiv.org/abs/2109.13089v1 )

ライセンス: CC BY 4.0
Salomon Kabongo, Jennifer D'Souza, and S\"oren Auer(参考訳) 研究出版物の急速な成長により、科学者に科学の進歩を監督する権限が最重要視される。 この点に関して、leaderboards facet of information organizationは、同じ研究課題に取り組む様々な研究からの経験的な結果を集約することで、最先端の概観を提供している。 paperswithcodeなどのクラウドソーシングの取り組みは、主に人工知能のさまざまなサブドメインのためのリーダーボードの構築に費やされている。 リーダーボードは、科学者が研究の進捗を追跡するのに有用であることが証明された、機械可読な学術知識を提供する。 リーダーボードの構築は、自動テキストマイニングによって大幅に高速化することができた。 本研究では,知識グラフに基づく学術情報組織のためのリーダーボード作成のための包括的アプローチを提案する。 具体的には,最先端変圧器モデルであるvizを用いて,自動リーダボード構築の問題点について検討する。 bert、scibert、xlnet。 分析の結果,F1における評価スコアが90%を超えるタスクにおいて,既存のベースラインを大幅に上回る最適手法が明らかとなった。 これにより、Leaderboardの抽出に最先端の結果が新たに提供される。 その結果、実験的なAI研究の大部分を、知識グラフとして次世代デジタルライブラリにまとめることができる。

With the rapid growth of research publications, empowering scientists to keep oversight over the scientific progress is of paramount importance. In this regard, the Leaderboards facet of information organization provides an overview on the state-of-the-art by aggregating empirical results from various studies addressing the same research challenge. Crowdsourcing efforts like PapersWithCode among others are devoted to the construction of Leaderboards predominantly for various subdomains in Artificial Intelligence. Leaderboards provide machine-readable scholarly knowledge that has proven to be directly useful for scientists to keep track of research progress. The construction of Leaderboards could be greatly expedited with automated text mining. This study presents a comprehensive approach for generating Leaderboards for knowledge-graph-base d scholarly information organization. Specifically, we investigate the problem of automated Leaderboard construction using state-of-the-art transformer models, viz. Bert, SciBert, and XLNet. Our analysis reveals an optimal approach that significantly outperforms existing baselines for the task with evaluation scores above 90% in F1. This, in turn, offers new state-of-the-art results for Leaderboard extraction. As a result, a vast share of empirical AI research can be organized in the next-generation digital libraries as knowledge graphs.
翻訳日:2021-10-03 12:44:09 公開日:2021-08-31
# (参考訳) タンパク質設計のための深層生成モデリング [全文訳有]

Deep Generative Modeling for Protein Design ( http://arxiv.org/abs/2109.13754v1 )

ライセンス: CC BY 4.0
Alexey Strokach, Philip M. Kim(参考訳) 深層学習のアプローチは、画像分類や自然言語処理などの分野で大きなブレークスルーをもたらし、タンパク質設計の領域で急速に普及している。 多くのタンパク質の生成モデルが開発され、既知の全てのタンパク質配列、モデル固有のタンパク質ファミリー、または個々のタンパク質のダイナミクスを外挿している。 これらの生成モデルは、手作業による特徴よりも、しばしばタンパク質の構造や機能について有益なタンパク質表現を学ぶことができる。 さらに、発現レベル、安定性、その他の属性の観点から、ネイティブに類似した数百万の新規タンパク質を迅速に提案することができる。 タンパク質設計プロセスは、識別神託によってさらに誘導され、望ましい性質を持つ可能性が最も高い候補を選択することができる。 本稿では、タンパク質のモデル化に最も成功した5種類の生成モデルについて論じ、モデル誘導タンパク質設計の枠組みを提供する。

Deep learning approaches have produced substantial breakthroughs in fields such as image classification and natural language processing and are making rapid inroads in the area of protein design. Many generative models of proteins have been developed that encompass all known protein sequences, model specific protein families, or extrapolate the dynamics of individual proteins. Those generative models can learn protein representations that are often more informative of protein structure and function than hand-engineered features. Furthermore, they can be used to quickly propose millions of novel proteins that resemble the native counterparts in terms of expression level, stability, or other attributes. The protein design process can further be guided by discriminative oracles to select candidates with the highest probability of having the desired properties. In this review, we discuss five classes of generative models that have been most successful at modeling proteins and provide a framework for model guided protein design.
翻訳日:2021-10-03 12:29:48 公開日:2021-08-31
# メタ脳モデル:生物学的に着想を得た認知エージェント

Meta-brain Models: biologically-inspire d cognitive agents ( http://arxiv.org/abs/2109.11938v1 )

ライセンス: Link先を確認
Bradly Alicea, Jesse Parent(参考訳) ニューラルネットワークやシンボリック計算のみに基づく人工知能(AI)システムは、表現複雑性の課題を示す。 最小限の表現は、移動や単純な意思決定のような振る舞いのアウトプットを生成することができるが、より精巧な内部表現はよりリッチな振る舞いを提供するかもしれない。 我々は、これらの問題はメタ脳モデルと呼ばれる計算アプローチで解決できると提案する。 メタブレインモデル(Meta-brain model)は、表現の複雑さの度合いが異なる階層化されたコンポーネントを含む、エンボディされたハイブリッドモデルである。 我々は,特殊なモデルを用いて構成した層の組み合わせを提案する。 この関係は、各コンポーネントを統一するために一般的なブラックボックスアプローチを使うのではなく、機能的なコミュニケーションを容易にするためにフィードフォワードとフィードバックの両方を利用する哺乳類の脳の新皮質-視床系関係のようなシステムを模倣する。 重要なのは、レイヤ間の関係を解剖学的に明示することです。 これにより、興味深い方法でモデルの関数に組み込むことができる構造特異性が可能になる。 我々は,形態形成と知覚を同時に行うエージェントから,形態形成と概念的表現の獲得を同時に行うエージェントまで,特定のタスクを行うエージェントに機能的に統合されるいくつかのタイプのレイヤを提案する。 メタ脳モデルに対する我々のアプローチは、表現の複雑さの異なるモデルを作成し、生物学的脳の構造的および機能的不均一性を模倣する階層化されたメタアーキテクチャを作成し、より一般的に認知機能、社会的相互作用、適応行動に対応するのに十分な入出力方法論を作成することである。 我々は、この柔軟でオープンソースなアプローチの開発における次のステップを提案して、結論付けます。

Artificial Intelligence (AI) systems based solely on neural networks or symbolic computation present a representational complexity challenge. While minimal representations can produce behavioral outputs like locomotion or simple decision-making, more elaborate internal representations might offer a richer variety of behaviors. We propose that these issues can be addressed with a computational approach we call meta-brain models. Meta-brain models are embodied hybrid models that include layered components featuring varying degrees of representational complexity. We will propose combinations of layers composed using specialized types of models. Rather than using a generic black box approach to unify each component, this relationship mimics systems like the neocortical-thalamic system relationship of the Mammalian brain, which utilizes both feedforward and feedback connectivity to facilitate functional communication. Importantly, the relationship between layers can be made anatomically explicit. This allows for structural specificity that can be incorporated into the model's function in interesting ways. We will propose several types of layers that might be functionally integrated into agents that perform unique types of tasks, from agents that simultaneously perform morphogenesis and perception, to agents that undergo morphogenesis and the acquisition of conceptual representations simultaneously. Our approach to meta-brain models involves creating models with different degrees of representational complexity, creating a layered meta-architecture that mimics the structural and functional heterogeneity of biological brains, and an input/output methodology flexible enough to accommodate cognitive functions, social interactions, and adaptive behaviors more generally. We will conclude by proposing next steps in the development of this flexible and open-source approach.
翻訳日:2021-10-03 10:37:47 公開日:2021-08-31
# (参考訳) 深層ニューラルネットワークのスケーラブルでモジュラーなロバストネス解析 [全文訳有]

Scalable and Modular Robustness Analysis of Deep Neural Networks ( http://arxiv.org/abs/2108.11651v2 )

ライセンス: CC BY 4.0
Yuyi Zhong, Quang-Trung Ta, Tianzuo Luo, Fanlong Zhang, Siau-Cheng Khoo(参考訳) ニューラルネットワークはより深く、より大きく訓練されるため、ニューラルネットワークアナライザのスケーラビリティは緊急に必要である。 本手法の主な技術的洞察は,ネットワークをブロックに分割し,各ブロックについて解析を行うことによって,ニューラルネットワークをモジュラー解析することである。 特に,ブロック要約を用いてネットワークブロック内の動作をキャプチャし,その要約を利用して解析プロセスを高速化するネットワークブロック要約手法を提案する。 我々は,最先端アナライザDeepPolyのCPU変換の文脈でメソッドをインスタンス化し,システム名をBounded-Block Poly (BBPoly)と命名する。 我々はbbpolyを様々な実験環境で広範囲に評価する。 実験結果から,提案手法はDeepPolyと同等の精度が得られるが,高速に動作し,計算資源の削減を図っている。 たとえばBBPolyは、SkipNetやResNetのような、入力画像当たり1時間以内で最大100万のニューロンを含む、本当に大きなニューラルネットワークを分析できる。

As neural networks are trained to be deeper and larger, the scalability of neural network analyzers is urgently required. The main technical insight of our method is modularly analyzing neural networks by segmenting a network into blocks and conduct the analysis for each block. In particular, we propose the network block summarization technique to capture the behaviors within a network block using a block summary and leverage the summary to speed up the analysis process. We instantiate our method in the context of a CPU-version of the state-of-the-art analyzer DeepPoly and name our system as Bounded-Block Poly (BBPoly). We evaluate BBPoly extensively on various experiment settings. The experimental result indicates that our method yields comparable precision as DeepPoly but runs faster and requires less computational resources. For example, BBPoly can analyze really large neural networks like SkipNet or ResNet which contain up to one million neurons in less than around 1 hour per input image, while DeepPoly needs to spend even 40 hours to analyze one image.
翻訳日:2021-09-12 12:05:03 公開日:2021-08-31
# 昇降モデルを用いたオンラインマルチコースKnapsackによるEコマースのパーソナライズ

E-Commerce Promotions Personalization via Online Multiple-Choice Knapsack with Uplift Modeling ( http://arxiv.org/abs/2108.13298v2 )

ライセンス: Link先を確認
Javier Albert, Dmitri Goldenberg(参考訳) プロモーションと割引は現代のeコマースプラットフォームにおいて不可欠な要素であり、購入完了に向けて顧客をインセンティブにするためにしばしば使用される。 プロモーションは収入にも影響し、しばしば専用のプロモーション予算によって制限される金銭的損失を引き起こす可能性がある。 オンライン制約付きマルチコースプロモーションパーソナライズ問題について検討し、グローバルな予算制約を満たしつつ、購入完了を最大化するために、現在プロモーションを行っている顧客毎に最適化目標を選定する。 本研究は,オンラインマルチチョイス・ナップサック問題として問題を定式化し,否定的な重みと値のケースに対処して存在文献を拡張した。 予算制約の遵守を保証し、各種データセットに対する最適なプロモーション効果の99.7%以上を達成するリアルタイム適応手法を提案する。 本手法は,世界有数のオンライン旅行プラットフォームにおける大規模実験により評価されている。

Promotions and discounts are essential components of modern e-commerce platforms, where they are often used to incentivize customers towards purchase completion. Promotions also affect revenue and may incur a monetary loss that is often limited by a dedicated promotional budget. We study the Online Constrained Multiple-Choice Promotions Personalization Problem, where the optimization goal is to select for each customer which promotion to present in order to maximize purchase completions, while also complying with global budget limitations. Our work formalizes the problem as an Online Multiple Choice Knapsack Problem and extends the existent literature by addressing cases with negative weights and values. We provide a real-time adaptive method that guarantees budget constraints compliance and achieves above 99.7% of the optimal promotional impact on various datasets. Our method is evaluated on a large-scale experimental study at one of the leading online travel platforms in the world.
翻訳日:2021-09-05 08:50:54 公開日:2021-08-31
# 相互依存の最大化によるマルチモーダル融合の改善

Improving Multimodal fusion via Mutual Dependency Maximisation ( http://arxiv.org/abs/2109.00922v1 )

ライセンス: Link先を確認
Pierre Colombo, Emile Chapuis, Matthieu Labeau, Chloe Clavel(参考訳) マルチモーダル感情分析は研究のトレンドであり、マルチモーダル融合は最も活発なトピックの一つである。 人間が様々なチャネル(視覚、音響、言語)を通してコミュニケーションすることを認めるマルチモーダルシステムは、異なるユニモーダル表現を合成表現に統合することを目指している。 これまでのところ、これらのモダリティの融合を可能にする複雑なアーキテクチャの開発に努力が続けられている。 しかし、そのようなシステムは、主に$l_1$やクロスエントロピーのような単純な損失を最小化することで訓練される。 本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。 我々は、我々の新しい罰則が2つのよく知られた感情分析データセットである \texttt{CMU-MOSI} と \texttt{CMU-MOSEI} の様々な最先端モデルに対して一貫した改善(精度4.3ドル)をもたらすことを示した。 提案手法は,両方のデータセット上で新たなSOTAを実現するだけでなく,モダリティドロップに対してより堅牢な表現を生成する。 最後に,本手法の副産物として,モデルで学習した高次元表現の解釈に使用できる統計ネットワークを含む。

Multimodal sentiment analysis is a trending area of research, and the multimodal fusion is one of its most active topic. Acknowledging humans communicate through a variety of channels (i.e visual, acoustic, linguistic), multimodal systems aim at integrating different unimodal representations into a synthetic one. So far, a consequent effort has been made on developing complex architectures allowing the fusion of these modalities. However, such systems are mainly trained by minimising simple losses such as $L_1$ or cross-entropy. In this work, we investigate unexplored penalties and propose a set of new objectives that measure the dependency between modalities. We demonstrate that our new penalties lead to a consistent improvement (up to $4.3$ on accuracy) across a large variety of state-of-the-art models on two well-known sentiment analysis datasets: \texttt{CMU-MOSI} and \texttt{CMU-MOSEI}. Our method not only achieves a new SOTA on both datasets but also produces representations that are more robust to modality drops. Finally, a by-product of our methods includes a statistical network which can be used to interpret the high dimensional representations learnt by the model.
翻訳日:2021-09-03 14:12:07 公開日:2021-08-31
# LightNER: 低リソースNERのためのプロンプト誘導アテンションを備えた軽量生成フレームワーク

LightNER: A Lightweight Generative Framework with Prompt-guided Attention for Low-resource NER ( http://arxiv.org/abs/2109.00720v1 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Lei Li, Xin Xie, Shumin Deng, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 低リソース言語やドメインのnerは、不適切なトレーニングデータに苦しむ。 低リソースのNERに対する既存の転送学習アプローチは、通常、ターゲットドメインがリソース豊富なソースドメインと比較して異なるラベルセットを持つという課題を、クラス転送やドメイン転送問題と結論付けることができる。 本稿では,この問題に対処するために,低リソースのner (lightner) に着目した軽量な生成フレームワークを提案する。 具体的には、ラベル固有の識別分類器を訓練する代わりに、シーケンスラベリングを変換して、ラベル固有の分類器を使わずにエンティティポインタインデックスシーケンスとエンティティカテゴリを生成し、クラス転送問題に対処する。 さらに、自己注意層に連続的なプロンプトを組み込んで注意を調整し、事前訓練した重みを適応させることにより、プロンプト誘導注意を提案する。 事前訓練された言語モデルのパラメータ全体を固定した連続的なプロンプトをチューニングするだけで、低リソースのシナリオに対して私たちのアプローチを軽量かつ柔軟にし、ドメイン間の知識の伝達を改善できることに注意してください。 実験の結果、パラメータの0.16%のみをチューニングすることで、lightnerは標準のシーケンスラベリングとプロトタイプベースのメソッドよりも低いリソース設定で同等の性能を得ることができることがわかった。

NER in low-resource languages or domains suffers from inadequate training data. Existing transfer learning approaches for low-resource NER usually have the challenge that the target domain has different label sets compared with a resource-rich source domain, which can be concluded as class transfer and domain transfer problems. In this paper, we propose a lightweight generative framework with prompt-guided attention for low-resource NER (LightNER) to address these issues. Concretely, instead of tackling the problem by training label-specific discriminative classifiers, we convert sequence labeling to generate the entity pointer index sequence and entity categories without any label-specific classifiers, which can address the class transfer issue. We further propose prompt-guided attention by incorporating continuous prompts into the self-attention layer to re-modulate the attention and adapt pre-trained weights. Note that we only tune those continuous prompts with the whole parameter of the pre-trained language model fixed, thus, making our approach lightweight and flexible for low-resource scenarios and can better transfer knowledge across domains. Experimental results show that by tuning only 0.16% of the parameters, LightNER can obtain comparable performance in the standard setting and outperform standard sequence labeling and prototype-based methods in low-resource settings.
翻訳日:2021-09-03 13:56:10 公開日:2021-08-31
# エッジデバイス用CNN型ECG分類器の多段プルーニング

Multistage Pruning of CNN Based ECG Classifiers for Edge Devices ( http://arxiv.org/abs/2109.00516v1 )

ライセンス: Link先を確認
Xiaolin Li, Rajesh Panicker, Barry Cardiff, and Deepu John(参考訳) スマートウェアラブルデバイスを使用して患者の心電図(ECG)をリアルタイムで不整脈を検出することで、医療結果を大幅に改善することができる。 畳み込みニューラルネットワーク(CNN)に基づくディープラーニングは、ECGの異常なビートを検出するのに成功している。 しかし、既存のcnnモデルの計算複雑性により、低出力エッジデバイスに実装できない。 通常、そのようなモデルは、エッジデバイスにおける大量の計算、メモリ、電力使用量をもたらす多くのモデルパラメータで複雑である。 ネットワークプルーニング技術は、cnnモデルの性能を犠牲にして、モデルの複雑さを低減できる。 本稿では,既存プルーニング技術と比較して,CNNモデルの複雑性を低減し,性能損失を無視できる新しいマルチステージプルーニング手法を提案する。 ECG分類のための既存のCNNモデルは、ベースライン参照として使用される。 60%の間隔で、提案手法は97.7%の精度で、ECG分類タスクではF1スコアが93.59%である。 これは精度が3.3%、F1スコアが9%向上した。 ベースラインモデルと比較すると,実行時の複雑性は60.4%減少する。

Using smart wearable devices to monitor patients electrocardiogram (ECG) for real-time detection of arrhythmias can significantly improve healthcare outcomes. Convolutional neural network (CNN) based deep learning has been used successfully to detect anomalous beats in ECG. However, the computational complexity of existing CNN models prohibits them from being implemented in low-powered edge devices. Usually, such models are complex with lots of model parameters which results in large number of computations, memory, and power usage in edge devices. Network pruning techniques can reduce model complexity at the expense of performance in CNN models. This paper presents a novel multistage pruning technique that reduces CNN model complexity with negligible loss in performance compared to existing pruning techniques. An existing CNN model for ECG classification is used as a baseline reference. At 60% sparsity, the proposed technique achieves 97.7% accuracy and an F1 score of 93.59% for ECG classification tasks. This is an improvement of 3.3% and 9% for accuracy and F1 Score respectively, compared to traditional pruning with fine-tuning approach. Compared to the baseline model, we also achieve a 60.4% decrease in run-time complexity.
翻訳日:2021-09-03 13:50:46 公開日:2021-08-31
# (参考訳) BiDAFを例として用いたNLPにおけるディープネットワークの有効性 [全文訳有]

Effectiveness of Deep Networks in NLP using BiDAF as an example architecture ( http://arxiv.org/abs/2109.00074v1 )

ライセンス: CC BY 4.0
Soumyendu Sarkar(参考訳) NLPによる質問回答は、BERTやBiDAFのような高度なモデルアーキテクチャと、初期の単語、文字、コンテキストベースの埋め込みの進化を通じて進歩してきた。 BERTはモデルの精度を飛躍的に向上させたので、次のフロンティアの要素はディープネットワークの導入とそれらを訓練する効果的な方法である。 本稿では,BiDAFのモデルエンコーダ層に着目したディープネットワークの有効性を検討した。 BiDAFは、その異種層を持つことにより、深層ネットワークの有効性を探求するだけでなく、低層層における改善がモデルアーキテクチャの上層における改善に寄与するかどうかを評価する機会を提供する。 NLPの次の最大のモデルは、実際にはBERTのようなソリッド言語モデリングに、ジェネリック言語モデリングに加えて改善をもたらす複合アーキテクチャで折り畳み、より広範な階層化アーキテクチャを持つだろうと私は信じています。 Bypassネットワーク、Residual Highwayネットワーク、DenseNetアーキテクチャを試しました。 さらに,ネットワークの最後の数層をセンシングする効果も評価した。 また,単語埋め込みに文字埋め込みを追加する場合の差について検討し,その効果が深層ネットワークに付加的であるかを検討した。 私の研究は、ディープネットワークが実際に有効であることを示している。 また、埋め込みなどの下位層における改良は、ディープネットワークによるゲインに付加的に渡される。

Question Answering with NLP has progressed through the evolution of advanced model architectures like BERT and BiDAF and earlier word, character, and context-based embeddings. As BERT has leapfrogged the accuracy of models, an element of the next frontier can be the introduction of deep networks and an effective way to train them. In this context, I explored the effectiveness of deep networks focussing on the model encoder layer of BiDAF. BiDAF with its heterogeneous layers provides the opportunity not only to explore the effectiveness of deep networks but also to evaluate whether the refinements made in lower layers are additive to the refinements made in the upper layers of the model architecture. I believe the next greatest model in NLP will in fact fold in a solid language modeling like BERT with a composite architecture which will bring in refinements in addition to generic language modeling and will have a more extensive layered architecture. I experimented with the Bypass network, Residual Highway network, and DenseNet architectures. In addition, I evaluated the effectiveness of ensembling the last few layers of the network. I also studied the difference character embeddings make in adding them to the word embeddings, and whether the effects are additive with deep networks. My studies indicate that deep networks are in fact effective in giving a boost. Also, the refinements in the lower layers like embeddings are passed on additively to the gains made through deep networks.
翻訳日:2021-09-02 20:55:19 公開日:2021-08-31
# (参考訳) 動的知識グラフを用いた対話型機械理解 [全文訳有]

Interactive Machine Comprehension with Dynamic Knowledge Graphs ( http://arxiv.org/abs/2109.00077v1 )

ライセンス: CC BY 4.0
Xingdi Yuan(参考訳) interactive machine reading comprehension (imrc) は、知識ソースが部分的に可観測である機械理解タスクである。 エージェントは、質問に答えるために必要な知識を集めるために、環境とシーケンシャルに対話する必要がある。 グラフ表現は、imrcタスクにおいてエージェントのメモリメカニズムとして機能する優れた帰納的バイアスであると仮定する。 様々なレベルでテキスト情報をキャプチャできる4つの異なるカテゴリのグラフを探索する。 情報収集中にこれらのグラフを動的に構築・更新する手法と、RLエージェントにグラフ表現をエンコードするニューラルネットワークについて述べる。 iSQuADの大規模な実験は、グラフ表現がRLエージェントの大幅な性能向上をもたらすことを示唆している。

Interactive machine reading comprehension (iMRC) is machine comprehension tasks where knowledge sources are partially observable. An agent must interact with an environment sequentially to gather necessary knowledge in order to answer a question. We hypothesize that graph representations are good inductive biases, which can serve as an agent's memory mechanism in iMRC tasks. We explore four different categories of graphs that can capture text information at various levels. We describe methods that dynamically build and update these graphs during information gathering, as well as neural models to encode graph representations in RL agents. Extensive experiments on iSQuAD suggest that graph representations can result in significant performance improvements for RL agents.
翻訳日:2021-09-02 20:48:33 公開日:2021-08-31
# (参考訳) ロケット科学ではない : 物語における表現言語解釈 [全文訳有]

It's not Rocket Science : Interpreting Figurative Language in Narratives ( http://arxiv.org/abs/2109.00087v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Yejin Choi, Vered Shwartz(参考訳) 言語は英語でユビキタスである。 しかし、NLP研究の大部分はリテラル言語に焦点を当てている。 既存のテキスト表現は構成性に依存しているが、図形言語はしばしば非構成的である。 本稿では,2つの非構成的図形言語(イディオムとシミリ)の解釈について検討する。 我々は,表現の正しい解釈に依拠して,クラウドソース型でわかりにくい連続性とともに,表現表現を含む架空の物語のデータセットを収集した。 次に、もっともらしい継続を選択するか、生成するようにモデルを訓練しました。 実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりも大幅に劣ることがわかった。 また, 文脈から意味を推論し, 構成語の意味に頼って, 具体的言語を解釈するための人的戦略を取り入れた知識強化モデルを提案する。 知識強化モデルは、識別的タスクと生成的タスクの両方のパフォーマンスを改善し、人間のパフォーマンスとのギャップをさらに埋める。

Figurative language is ubiquitous in English. Yet, the vast majority of NLP research focuses on literal language. Existing text representations by design rely on compositionality, while figurative language is often non-compositional. In this paper, we study the interpretation of two non-compositional figurative languages (idioms and similes). We collected datasets of fictional narratives containing a figurative expression along with crowd-sourced plausible and implausible continuations relying on the correct interpretation of the expression. We then trained models to choose or generate the plausible continuation. Our experiments show that models based solely on pre-trained language models perform substantially worse than humans on these tasks. We additionally propose knowledge-enhanced models, adopting human strategies for interpreting figurative language: inferring meaning from the context and relying on the constituent word's literal meanings. The knowledge-enhanced models improve the performance on both the discriminative and generative tasks, further bridging the gap from human performance.
翻訳日:2021-09-02 20:25:24 公開日:2021-08-31
# (参考訳) 加速度計と音声信号を用いた非侵襲的cough自動検出 [全文訳有]

Automatic non-invasive Cough Detection based on Accelerometer and Audio Signals ( http://arxiv.org/abs/2109.00103v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Igor Miranda, Andreas Diacon, Thomas Niesler(参考訳) 加速度計と音声信号の両方に基づいて, せきイベントを自動的に検出する非侵襲的手法を提案する。 加速度信号は、その統合加速度計を使用して、患者のベッドにしっかりと取り付けられたスマートフォンによって捕捉される。 外部マイクを用いて同じスマートフォンで同時にオーディオ信号をキャプチャする。 結核診療所の成人男性14人を対象に, 約6,000クフと68,000の非クフイベントに対して, 同時取得の加速度と音声信号を含む手作業によるデータセットを作成した。 LR, SVM, MLPはベースライン分類器として評価され, CNN, LSTM, Resnet50のような深いアーキテクチャと比較される。 研究対象の分類器は, 加速度信号と音声信号を用いて, しゃがみ, 喉のクリーニング, ベッド上での移動などの他の活動とを高精度に区別できることがわかった。 しかし、いずれの場合も、ディープニューラルネットワークは浅い分類器をクリアマージンで上回り、Resnet50はアクセラレーションとオーディオ信号でそれぞれ0.98および0.99を超えるAUCを達成することで最高の性能を提供する。 音声に基づく分類は、加速度に基づく分類よりも優れた性能を提供するが、最良のシステムでは違いが非常に小さい。 加速度信号は処理パワーを少なくし、オーディオを記録する必要がなくなり、本質的にプライバシーが確保されるため、記録装置はベッドに取り付けられて着用しないため、加速度計を用いた高精度な非侵襲的cough検出器は、長期間のcough監視においてより便利で容易に受け入れられる方法を表すことができる。

We present an automatic non-invasive way of detecting cough events based on both accelerometer and audio signals. The acceleration signals are captured by a smartphone firmly attached to the patient's bed, using its integrated accelerometer. The audio signals are captured simultaneously by the same smartphone using an external microphone. We have compiled a manually-annotated dataset containing such simultaneously-captu red acceleration and audio signals for approximately 6000 cough and 68000 non-cough events from 14 adult male patients in a tuberculosis clinic. LR, SVM and MLP are evaluated as baseline classifiers and compared with deep architectures such as CNN, LSTM, and Resnet50 using a leave-one-out cross-validation scheme. We find that the studied classifiers can use either acceleration or audio signals to distinguish between coughing and other activities including sneezing, throat-clearing, and movement on the bed with high accuracy. However, in all cases, the deep neural networks outperform the shallow classifiers by a clear margin and the Resnet50 offers the best performance by achieving an AUC exceeding 0.98 and 0.99 for acceleration and audio signals respectively. While audio-based classification consistently offers a better performance than acceleration-based classification, we observe that the difference is very small for the best systems. Since the acceleration signal requires less processing power, and since the need to record audio is sidestepped and thus privacy is inherently secured, and since the recording device is attached to the bed and not worn, an accelerometer-based highly accurate non-invasive cough detector may represent a more convenient and readily accepted method in long-term cough monitoring.
翻訳日:2021-09-02 20:04:32 公開日:2021-08-31
# LSTMのためのワーキングメモリ接続

Working Memory Connections for LSTM ( http://arxiv.org/abs/2109.00020v1 )

ライセンス: Link先を確認
Federico Landi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara(参考訳) LSTM (Recurrent Neural Networks with Long Short-Term Memory) は、長期的な依存関係を学ぶ際に、爆発や勾配の消失を緩和するゲーティング機構を使用する。 このため、LSTMや他のゲートRNNは広く採用されており、多くのシーケンスモデリングタスクの標準デファクトとなっている。 LSTM内のメモリセルには必須情報が含まれているが、ゲーティング機構に直接影響を与えることは許されない。 本研究では,内部セル状態から得られる情報を含めることでゲート電位を改善する。 提案された修正はWorking Memory Connectionと呼ばれ、ネットワークゲートに学習可能な非線形プロジェクションを追加することで構成される。 この修正は、基礎となるタスクを仮定することなく、古典的なLSTMゲートに適合し、長いシーケンスを扱う際に特に効果的である。 2000年代初頭までさかのぼるこの方向の研究努力は、バニラLSTMよりも一貫した改善をもたらすことができなかった。 本稿では,その効果を著しく制限し,内部細胞状態から得られる知識の統合が成功するのを防げる,以前の接続に関連する重要な問題を明らかにする。 動作記憶接続は様々なタスクにおけるLSTMの性能を常に向上することを示す。 解析結果から,セル状態はゲート構造に含まれる有用な情報を含むことが示唆された。

Recurrent Neural Networks with Long Short-Term Memory (LSTM) make use of gating mechanisms to mitigate exploding and vanishing gradients when learning long-term dependencies. For this reason, LSTMs and other gated RNNs are widely adopted, being the standard de facto for many sequence modeling tasks. Although the memory cell inside the LSTM contains essential information, it is not allowed to influence the gating mechanism directly. In this work, we improve the gate potential by including information coming from the internal cell state. The proposed modification, named Working Memory Connection, consists in adding a learnable nonlinear projection of the cell content into the network gates. This modification can fit into the classical LSTM gates without any assumption on the underlying task, being particularly effective when dealing with longer sequences. Previous research effort in this direction, which goes back to the early 2000s, could not bring a consistent improvement over vanilla LSTM. As part of this paper, we identify a key issue tied to previous connections that heavily limits their effectiveness, hence preventing a successful integration of the knowledge coming from the internal cell state. We show through extensive experimental evaluation that Working Memory Connections constantly improve the performance of LSTMs on a variety of tasks. Numerical results suggest that the cell state contains useful information that is worth including in the gate structure.
翻訳日:2021-09-02 14:33:44 公開日:2021-08-31
# ポルトガル語のセンス表現:感覚埋め込みとディープニューラル言語モデルを用いた実験

Sense representations for Portuguese: experiments with sense embeddings and deep neural language models ( http://arxiv.org/abs/2109.00025v1 )

ライセンス: Link先を確認
Jessica Rodrigues da Silva, Helena de Medeiros Caseli(参考訳) センス表現はWord2Vec、GloVe、FastTextのようなワード表現を超えて、幅広い自然言語処理タスクにおいて革新的なパフォーマンスを達成した。 多くの応用において非常に有用であるが、単語埋め込みを生成する従来のアプローチには厳しい欠点があり、曖昧な単語が異なる意味を仮定できるという事実を無視して、与えられた単語に対して単一のベクトル表現を生成する。 本稿では,従来の単語埋め込みと異なり,テキスト中の意味論的意味を解析することにより,単語の異なる意味を誘発できる教師なし感覚表現について検討する。 本論文で研究されている教師なしのセンス表現は:センス埋め込みと深層ニューラルネットワークモデルである。 ポルトガル語に感性埋め込みを生成するための最初の実験を行った。 この実験により, 構文的, 意味的類似タスクにおいて, 感覚埋め込みモデル (Sense2vec) が従来の単語埋め込みよりも優れており, ポルトガル語におけるNLPタスクの性能を向上させることが証明された。 また,2つの伝達学習手法(特徴ベースと微調整,意味的テキスト類似性タスク)において,事前学習した深層言語モデル(ELMoとBERT)の性能評価を行った。 実験の結果,細調整された多言語およびポルトガル語のBERT言語モデルはELMoモデルやベースラインよりも精度が高いことがわかった。

Sense representations have gone beyond word representations like Word2Vec, GloVe and FastText and achieved innovative performance on a wide range of natural language processing tasks. Although very useful in many applications, the traditional approaches for generating word embeddings have a strict drawback: they produce a single vector representation for a given word ignoring the fact that ambiguous words can assume different meanings. In this paper, we explore unsupervised sense representations which, different from traditional word embeddings, are able to induce different senses of a word by analyzing its contextual semantics in a text. The unsupervised sense representations investigated in this paper are: sense embeddings and deep neural language models. We present the first experiments carried out for generating sense embeddings for Portuguese. Our experiments show that the sense embedding model (Sense2vec) outperformed traditional word embeddings in syntactic and semantic analogies task, proving that the language resource generated here can improve the performance of NLP tasks in Portuguese. We also evaluated the performance of pre-trained deep neural language models (ELMo and BERT) in two transfer learning approaches: feature based and fine-tuning, in the semantic textual similarity task. Our experiments indicate that the fine tuned Multilingual and Portuguese BERT language models were able to achieve better accuracy than the ELMo model and baselines.
翻訳日:2021-09-02 14:31:30 公開日:2021-08-31
# Bayesian Kernelized Tensor Regressionを用いたスケーラブル時空間変動係数モデリング

Scalable Spatiotemporally Varying Coefficient Modeling with Bayesian Kernelized Tensor Regression ( http://arxiv.org/abs/2109.00046v1 )

ライセンス: Link先を確認
Mengying Lei, Aurelie Labbe, Lijun Sun(参考訳) 空間統計学における回帰手法として、時空間変動係数モデル(STVC)は、時空間と時空間の非定常かつ解釈可能な応答-共変関係を発見する重要なツールである。 しかし,stvcを大規模時空間解析に適用することは,計算コストが高いため困難である。 この課題に対処するために,三階テンソル構造を用いて時空間変化係数を要約し,時空間変化係数モデルを特殊低ランクテンソル回帰問題として再構成する。 低ランク分解は、大容量データの大域的パターンを実質的に少ないパラメータで効果的にモデル化することができる。 さらに, サンプル間の局所時空間依存性を組み込むために, 空間的および時間的因子行列にガウス過程(GP)を置き, 各因子成分の局所的および時間的過程をよりよく符号化する。 我々はこのフレームワーク全体をベイズ核化テンソル回帰 (bktr) と呼ぶ。 モデル推論のために,ギブスサンプリングを用いて因子行列の更新とスライスサンプリングを行い,カーネルハイパーパラメータの更新を行う,効率的なマルコフ連鎖モンテカルロ(mcmc)アルゴリズムを開発した。 本研究では,合成データと実世界のデータセットの両方について広範な実験を行い,モデル推定とパラメータ推定におけるbktrの性能と効率性について検証した。

As a regression technique in spatial statistics, spatiotemporally varying coefficient model (STVC) is an important tool to discover nonstationary and interpretable response-covariate associations over both space and time. However, it is difficult to apply STVC for large-scale spatiotemporal analysis due to the high computational cost. To address this challenge, we summarize the spatiotemporally varying coefficients using a third-order tensor structure and propose to reformulate the spatiotemporally varying coefficient model as a special low-rank tensor regression problem. The low-rank decomposition can effectively model the global patterns of the large data with substantially reduced number of parameters. To further incorporate the local spatiotemporal dependencies among the samples, we place Gaussian process (GP) priors on the spatial and temporal factor matrices to better encode local spatial and temporal processes on each factor component. We refer to the overall framework as Bayesian Kernelized Tensor Regression (BKTR). For model inference, we develop an efficient Markov chain Monte Carlo (MCMC) algorithm, which uses Gibbs sampling to update factor matrices and slice sampling to update kernel hyperparameters. We conduct extensive experiments on both synthetic and real-world data sets, and our results confirm the superior performance and efficiency of BKTR for model estimation and parameter inference.
翻訳日:2021-09-02 14:30:06 公開日:2021-08-31
# 機械学習メディアバイアス

Machine-Learning media bias ( http://arxiv.org/abs/2109.00024v1 )

ライセンス: Link先を確認
Samantha D'Alonzo (MIT), Max Tegmark (MIT)(参考訳) メディアバイアスを自動的に計測する手法を提案する。 新聞がどの記事を公開したかは、異なるフレーズを使用する頻度のみに基づいて推定され、分析によって新聞やフレーズを自動的にバイアス空間にマッピングする条件付き確率分布が導かれる。 新聞約100紙から約100万記事を分析して、数十のニューストピックのバイアスを解析することで、この手法は新聞を2次元のバイアスランドスケープにマッピングし、人間の判断に基づいて、以前のバイアス分類とよく一致する。 1次元は従来の左利きバイアス、もう1次元は確立バイアスと解釈できる。 つまり、ニュースバイアスは本質的に政治的だが、その測定は必要ではないということだ。

We present an automated method for measuring media bias. Inferring which newspaper published a given article, based only on the frequencies with which it uses different phrases, leads to a conditional probability distribution whose analysis lets us automatically map newspapers and phrases into a bias space. By analyzing roughly a million articles from roughly a hundred newspapers for bias in dozens of news topics, our method maps newspapers into a two-dimensional bias landscape that agrees well with previous bias classifications based on human judgement. One dimension can be interpreted as traditional left-right bias, the other as establishment bias. This means that although news bias is inherently political, its measurement need not be.
翻訳日:2021-09-02 14:29:28 公開日:2021-08-31
# minif2f: 形式的オリンピアドレベル数学のためのクロスシステムベンチマーク

MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics ( http://arxiv.org/abs/2109.00110v1 )

ライセンス: Link先を確認
Kunhao Zheng, Jesse Michael Han, Stanislas Polu(参考訳) ニューラル定理証明のための一貫したクロスシステムベンチマークを提供することを目的として,オリンピアードレベルの数学問題のデータセットである miniF2F を提案する。 miniF2Fベンチマークは、現在Metamath、Lean、Isabelleをターゲットにしており、AIME、AMC、国際数学オリンピアード(IMO)から引き出された488の問題文と、高校や学部の数学コースの資料で構成されている。 GPT-3に基づくニューラル定理証明器であるGPT-fを用いてベースライン結果を報告し,その性能解析を行った。 MiniF2Fはコミュニティ主導の取り組みであり、私たちのベンチマークが神経定理の証明の進歩を促進することを期待しています。

We present miniF2F, a dataset of formal Olympiad-level mathematics problems statements intended to provide a unified cross-system benchmark for neural theorem proving. The miniF2F benchmark currently targets Metamath, Lean, and Isabelle and consists of 488 problem statements drawn from the AIME, AMC, and the International Mathematical Olympiad (IMO), as well as material from high-school and undergraduate mathematics courses. We report baseline results using GPT-f, a neural theorem prover based on GPT-3 and provide an analysis of its performance. We intend for miniF2F to be a community-driven effort and hope that our benchmark will help spur advances in neural theorem proving.
翻訳日:2021-09-02 14:28:53 公開日:2021-08-31
# デジタル病理画像分割の深度係数予測のための不確かさ量子深度学習

Uncertainty Quantified Deep Learning for Predicting Dice Coefficient of Digital Histopathology Image Segmentation ( http://arxiv.org/abs/2109.00115v1 )

ライセンス: Link先を確認
Sambuddha Ghosal, Audrey Xie and Pratik Shah(参考訳) 深層学習モデル(DLM)は、医用画像のセグメンテーションや分類作業における技術性能の状態を達成できる。 しかし、Dice係数(Dice)のような予測に対するフィードバックを提供していないDLMは、実際の臨床環境でのデプロイメント可能性に制限がある。 不確実性の推定は、さらなるレビューを必要とするが、デプロイを計算的に禁止する予測を特定することによって、これらの自動化システムの信頼性を高めることができる。 本研究では,無作為初期化重量のDLMとモンテカルロ・ドロップアウト(MCD)を用いて,顕微鏡的ヘマトキシリンおよびエオシン(H&E)染色前立腺核生検RGB画像から腫瘍を分離する。 我々は,1つの画像(全体像の代わりに)から複数の臨床領域に基づく不確実性を用いて,線形モデルにより出力されるDLMモデルのDiceを予測する手法を考案した。 画像レベルの不確かさマップが生成され、腫瘍の有無にかかわらず特定の前立腺組織領域に関連する不完全さと高レベルの不確かさの対応を示した。 本研究では, 線形モデルを用いて, 不確実な定量化深度学習と相関係数(スピアマン相関(p<0.05))を学習し, 特定の領域のDiceスコアを予測できることを示唆した。

Deep learning models (DLMs) can achieve state of the art performance in medical image segmentation and classification tasks. However, DLMs that do not provide feedback for their predictions such as Dice coefficients (Dice) have limited deployment potential in real world clinical settings. Uncertainty estimates can increase the trust of these automated systems by identifying predictions that need further review but remain computationally prohibitive to deploy. In this study, we use a DLM with randomly initialized weights and Monte Carlo dropout (MCD) to segment tumors from microscopic Hematoxylin and Eosin (H&E) dye stained prostate core biopsy RGB images. We devise a novel approach that uses multiple clinical region based uncertainties from a single image (instead of the entire image) to predict Dice of the DLM model output by linear models. Image level uncertainty maps were generated and showed correspondence between imperfect model segmentation and high levels of uncertainty associated with specific prostate tissue regions with or without tumors. Results from this study suggest that linear models can learn coefficients of uncertainty quantified deep learning and correlations ((Spearman's correlation (p<0.05)) to predict Dice scores of specific regions of medical images.
翻訳日:2021-09-02 14:28:13 公開日:2021-08-31
# NUVが優先するハーフスペースとボックス制約:最初の結果

Half-Space and Box Constraints as NUV Priors: First Results ( http://arxiv.org/abs/2109.00036v1 )

ライセンス: Link先を確認
Raphael Keusch, Hans-Andrea Loeliger(参考訳) 未知分散(nuv)を持つ正規化は、多くの有用な前処理を表し、ガウスモデルやメッセージパッシングアルゴリズムとうまく融合することができる。 疎化前のNUV表現は古くから知られており、バイナリ(およびMレベル)のNUV表現はごく最近まで提案されている。 本論文では, 半空間制約とボックス制約のNUV表現を提案し, 既知のNUVプリエントを持つ任意のリニアガウスモデルに対して, 計算的トラクタビリティに影響を与えることなくそのような制約を加えることができる。

Normals with unknown variance (NUV) can represent many useful priors and blend well with Gaussian models and message passing algorithms. NUV representations of sparsifying priors have long been known, and NUV representations of binary (and M-level) priors have been proposed very recently. In this document, we propose NUV representations of half-space constraints and box constraints, which allows to add such constraints to any linear Gaussian model with any of the previously known NUV priors without affecting the computational tractability.
翻訳日:2021-09-02 14:27:24 公開日:2021-08-31
# トランスフォーマー言語モデルからの文ボトルネック自動エンコーダ

Sentence Bottleneck Autoencoders from Transformer Language Models ( http://arxiv.org/abs/2109.00055v1 )

ライセンス: Link先を確認
Ivan Montero, Nikolaos Pappas, Noah A. Smith(参考訳) 大規模コーパス上での言語モデルの事前学習によるテキスト表現学習は,NLPシステム構築の標準出発点となっている。 このアプローチは、生のテキストでトレーニングされたオートエンコーダとは対照的に、各入力を完全な再構築を可能にするベクトルとしてエンコードすることを目的としている。 オートエンコーダはその潜在空間構造と生成特性のために魅力的である。 そこで本研究では, 文レベルの自動エンコーダの構築について, 予め学習した, 凍結したトランスフォーマー言語モデルから検討する。 文のボトルネックと単層修飾トランスフォーマーデコーダのみを訓練しながら,マスク付き言語モデリングの目的を生成的・分別的に適応する。 本モデルにより得られた文表現は,テキスト類似性タスク,スタイル転送(制御生成の例),シングルセンテンス分類タスクにおいて事前学習されたトランスフォーマから表現を抽出する従来の方法よりも品質が向上し,また,大きな事前学習モデルよりもパラメータが小さいことを実証した。

Representation learning for text via pretraining a language model on a large corpus has become a standard starting point for building NLP systems. This approach stands in contrast to autoencoders, also trained on raw text, but with the objective of learning to encode each input as a vector that allows full reconstruction. Autoencoders are attractive because of their latent space structure and generative properties. We therefore explore the construction of a sentence-level autoencoder from a pretrained, frozen transformer language model. We adapt the masked language modeling objective as a generative, denoising one, while only training a sentence bottleneck and a single-layer modified transformer decoder. We demonstrate that the sentence representations discovered by our model achieve better quality than previous methods that extract representations from pretrained transformers on text similarity tasks, style transfer (an example of controlled generation), and single-sentence classification tasks in the GLUE benchmark, while using fewer parameters than large pretrained models.
翻訳日:2021-09-02 14:27:13 公開日:2021-08-31
# DensePose 3D:Articulated Objectsの標準表面マップを3次元にリフティング

DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to the Third Dimension ( http://arxiv.org/abs/2109.00033v1 )

ライセンス: Link先を確認
Roman Shapovalov, David Novotny, Benjamin Graham, Patrick Labatut, Andrea Vedaldi(参考訳) 人間や動物のような関節性物体の単眼的3次元再構築の問題に取り組む。 2次元画像アノテーションのみから弱教師ありの方法でそのような復元を学べる手法であるdungpose 3dを提案する。 これは、大規模な3Dオブジェクトスキャンのデータセットで事前訓練されたSMPLのようなパラメトリックモデルを使用する従来の変形可能な再構成手法とは対照的である。 3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。 この方法は、与えられたカテゴリ固有の3Dテンプレートメッシュのソフトパーティションと、オブジェクトの2D DensePoseのような表面アノテーションに正しく再描画するように部品の動きを予測する単分子再構成ネットワークとを、エンドツーエンドで学習する。 部分分割は、ラプラス・ベルトラミ作用素の滑らかな固有関数の組み合わせとして部分代入を表現することによって正規化される。 我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較した。

We tackle the problem of monocular 3D reconstruction of articulated objects like humans and animals. We contribute DensePose 3D, a method that can learn such reconstructions in a weakly supervised fashion from 2D image annotations only. This is in stark contrast with previous deformable reconstruction methods that use parametric models such as SMPL pre-trained on a large dataset of 3D object scans. Because it does not require 3D scans, DensePose 3D can be used for learning a wide range of articulated categories such as different animal species. The method learns, in an end-to-end fashion, a soft partition of a given category-specific 3D template mesh into rigid parts together with a monocular reconstruction network that predicts the part motions such that they reproject correctly onto 2D DensePose-like surface annotations of the object. The decomposition of the object into parts is regularized by expressing part assignments as a combination of the smooth eigenfunctions of the Laplace-Beltrami operator. We show significant improvements compared to state-of-the-art non-rigid structure-from-motio n baselines on both synthetic and real data on categories of humans and animals.
翻訳日:2021-09-02 14:24:37 公開日:2021-08-31
# CPFN:高分解能点雲のためのカスケードプリミティブフィッティングネットワーク

CPFN: Cascaded Primitive Fitting Networks for High-Resolution Point Clouds ( http://arxiv.org/abs/2109.00113v1 )

ライセンス: Link先を確認
Eric-Tuan L\^e, Minhyuk Sung, Duygu Ceylan, Radomir Mech, Tamy Boubekeur and Niloy J. Mitra(参考訳) 人造オブジェクトをベースプリミティブの集合として表現することは、コンピュータビジョンとリバースエンジニアリングにおいて長い歴史を持つ。 高解像度のポイントクラウドスキャンの場合、大きなプリミティブと詳細部分の説明の両方を検出できることが課題である。 古典的なRANSACアプローチでは、ケース固有のパラメータチューニングを必要とするが、最先端のネットワークはPointNet++のようなバックボーンモジュールのメモリ消費によって制限され、したがって大規模なプリミティブを検出できない。 本稿では,グローバルおよびローカルなプリミティブ検出ネットワークの検出結果をアダプティブパッチサンプリングネットワークに依存したCPFN(Cascaded Primitive Fitting Networks)を提案する。 キーイネーブラとして,グローバルスケールとローカルスケール間で動的にプリミティブを集約するマージ定式化を提案する。 評価の結果,CPFNは高解像度のクラウドデータセットにおいて,最先端のSPFNの性能を13-14%向上し,特に20-22%の小型プリミティブの検出を改善した。

Representing human-made objects as a collection of base primitives has a long history in computer vision and reverse engineering. In the case of high-resolution point cloud scans, the challenge is to be able to detect both large primitives as well as those explaining the detailed parts. While the classical RANSAC approach requires case-specific parameter tuning, state-of-the-art networks are limited by memory consumption of their backbone modules such as PointNet++, and hence fail to detect the fine-scale primitives. We present Cascaded Primitive Fitting Networks (CPFN) that relies on an adaptive patch sampling network to assemble detection results of global and local primitive detection networks. As a key enabler, we present a merging formulation that dynamically aggregates the primitives across global and local scales. Our evaluation demonstrates that CPFN improves the state-of-the-art SPFN performance by 13-14% on high-resolution point cloud datasets and specifically improves the detection of fine-scale primitives by 20-22%.
翻訳日:2021-09-02 14:24:17 公開日:2021-08-31
# sar意味セグメンテーションのための電気光学を用いたコントラストマルチビュー符号化

Contrastive Multiview Coding with Electro-optics for SAR Semantic Segmentation ( http://arxiv.org/abs/2109.00120v1 )

ライセンス: Link先を確認
Keumgang Cha, Junghoon Seo, Yeji Choi(参考訳) ディープラーニングモデルのトレーニングでは、モデルパラメータの初期化がモデル性能、サンプル効率、収束速度に大きな影響を与える。 近年,モデル初期化のための表現学習がリモートセンシング分野で活発に研究されている。 特に、合成開口レーダ(SAR)センサを用いて得られた画像の外観特性は、一般的な電気光学(EO)画像とは大きく異なり、リモートセンシング領域では表現学習がさらに重要である。 対照的なマルチビュー符号化を動機とし,sar意味セグメンテーションのためのマルチモーダル表現学習を提案する。 従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。 いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。

In the training of deep learning models, how the model parameters are initialized greatly affects the model performance, sample efficiency, and convergence speed. Representation learning for model initialization has recently been actively studied in the remote sensing field. In particular, the appearance characteristics of the imagery obtained using the a synthetic aperture radar (SAR) sensor are quite different from those of general electro-optical (EO) images, and thus representation learning is even more important in remote sensing domain. Motivated from contrastive multiview coding, we propose multi-modal representation learning for SAR semantic segmentation. Unlike previous studies, our method jointly uses EO imagery, SAR imagery, and a label mask. Several experiments show that our approach is superior to the existing methods in model performance, sample efficiency, and convergence speed.
翻訳日:2021-09-02 14:23:56 公開日:2021-08-31
# MergeBERT: ニューラルトランスによる競合解決プログラムのマージ

MergeBERT: Program Merge Conflict Resolution via Neural Transformers ( http://arxiv.org/abs/2109.00084v1 )

ライセンス: Link先を確認
Alexey Svyatkovskiy, Todd Mytcowicz, Negar Ghorbani, Sarah Fakhoury, Elizabeth Dinella, Christian Bird, Neel Sundaresan, Shuvendu Lahiri(参考訳) コラボレーション型ソフトウェア開発は、現代のソフトウェア開発ライフサイクルの不可欠な部分であり、大規模ソフトウェアプロジェクトの成功に不可欠である。 複数の開発者が同じコード行で同時変更を行うと、マージコンフリクトが発生する可能性がある。 このような衝突はプルリクエストと継続的インテグレーションパイプラインを数時間から数日停止させ、開発者の生産性を著しく損なう。 本稿では,トークンレベルの3方向差分法とトランスフォーマーエンコーダモデルに基づく,新しいニューラルネットワークマージフレームワークであるmergebertを提案する。 本研究では,実世界のマージコミットデータから抽出したプリミティブマージパターンを用いた分類タスクとして,マージ競合解決の限定的な性質を生かして解決シーケンスを生成するタスクを再構成する。 本モデルはマージ解像度合成の精度を64~69%向上させ,既存の構造化プログラムおよび神経プログラムマージツールの2倍近く向上した。 最後に、Java、JavaScript、TypeScript、C#のプログラミング言語とのマルチ言語設定でプログラムマージを実行でき、ゼロショットを目に見えない言語に一般化できるモデルの汎用性を実証する。

Collaborative software development is an integral part of the modern software development life cycle, essential to the success of large-scale software projects. When multiple developers make concurrent changes around the same lines of code, a merge conflict may occur. Such conflicts stall pull requests and continuous integration pipelines for hours to several days, seriously hurting developer productivity. In this paper, we introduce MergeBERT, a novel neural program merge framework based on the token-level three-way differencing and a transformer encoder model. Exploiting restricted nature of merge conflict resolutions, we reformulate the task of generating the resolution sequence as a classification task over a set of primitive merge patterns extracted from real-world merge commit data. Our model achieves 64--69% precision of merge resolution synthesis, yielding nearly a 2x performance improvement over existing structured and neural program merge tools. Finally, we demonstrate versatility of our model, which is able to perform program merge in a multilingual setting with Java, JavaScript, TypeScript, and C# programming languages, generalizing zero-shot to unseen languages.
翻訳日:2021-09-02 14:17:08 公開日:2021-08-31
# 偏微分方程式のレンズによる量子化畳み込みニューラルネットワーク

Quantized convolutional neural networks through the lens of partial differential equations ( http://arxiv.org/abs/2109.00095v1 )

ライセンス: Link先を確認
Ido Ben-Yair, Gil Ben Shalom, Moshe Eliasof, Eran Treister(参考訳) 畳み込みニューラルネットワーク(cnns)の量子化は、cnn(特に低リソースエッジデバイス)の展開に関わる計算負荷を軽減する一般的なアプローチである。 しかし、固定点算術はニューラルネットワークに関わる計算の種類には自然ではない。 本研究では,pdeに基づくパースペクティブと分析を用いて,量子化cnnを改善する方法について検討する。 まず,ネットワーク全体の機能マップにエッジアウェアスムージングを適用するために,total variation (tv) アプローチを利用する。 これは、値の分布における外れ値の削減と、量子化により適したピースワイドな定数写像の促進を目的としている。 次に,画像分類のための共通cnnの対称かつ安定な変種と,グラフノード分類のためのグラフ畳み込みネットワーク(gcns)を考える。 本研究では, 量子化速度の異なるネットワークの動作を, フォワード安定性の特性が維持できることを実証する。 その結果、安定した量子化ネットワークは、パラメータの少ないにもかかわらず、量子化されていないネットワークと同様に振る舞う。 また、安定性が正確性を改善するのにも役立ちます。 これらの特性は、自律運転のような敏感でリソースに制約のある、低消費電力またはリアルタイムなアプリケーションに特に関心がある。

Quantization of Convolutional Neural Networks (CNNs) is a common approach to ease the computational burden involved in the deployment of CNNs, especially on low-resource edge devices. However, fixed-point arithmetic is not natural to the type of computations involved in neural networks. In this work, we explore ways to improve quantized CNNs using PDE-based perspective and analysis. First, we harness the total variation (TV) approach to apply edge-aware smoothing to the feature maps throughout the network. This aims to reduce outliers in the distribution of values and promote piece-wise constant maps, which are more suitable for quantization. Secondly, we consider symmetric and stable variants of common CNNs for image classification, and Graph Convolutional Networks (GCNs) for graph node-classification. We demonstrate through several experiments that the property of forward stability preserves the action of a network under different quantization rates. As a result, stable quantized networks behave similarly to their non-quantized counterparts even though they rely on fewer parameters. We also find that at times, stability even aids in improving accuracy. These properties are of particular interest for sensitive, resource-constrained , low-power or real-time applications like autonomous driving.
翻訳日:2021-09-02 14:16:19 公開日:2021-08-31
# the second international verification of neural networks competition (vnn-comp 2021):概要と結果

The Second International Verification of Neural Networks Competition (VNN-COMP 2021): Summary and Results ( http://arxiv.org/abs/2109.00498v1 )

ライセンス: Link先を確認
Stanley Bak, Changliu Liu, Taylor Johnson(参考訳) 本報告では,第4回ML対応自律システムのための形式的手法に関するワークショップの一環として開催された第2回ニューラルネットワークコンペティション(VNN-COMP 2021)を,第33回コンピュータ支援検証国際会議(CAV)にまとめる。 この大会には12チームが参加した。 競争の目標は、スケーラビリティとスピードの観点から、ニューラルネットワーク検証における最先端の手法を客観的に比較することである。 この線に沿って、標準フォーマット(ニューラルネットワークはONNX、仕様はVNNLIB)、標準ハードウェア(すべてのツールはAWSのオーガナイザによって実行される)、ツール作者が提供するツールパラメータを使用しました。 このレポートでは、このコンペティションから学んだルール、ベンチマーク、参加ツール、結果、教訓を要約する。

This report summarizes the second International Verification of Neural Networks Competition (VNN-COMP 2021), held as a part of the 4th Workshop on Formal Methods for ML-Enabled Autonomous Systems that was collocated with the 33rd International Conference on Computer-Aided Verification (CAV). Twelve teams participated in this competition. The goal of the competition is to provide an objective comparison of the state-of-the-art methods in neural network verification, in terms of scalability and speed. Along this line, we used standard formats (ONNX for neural networks and VNNLIB for specifications), standard hardware (all tools are run by the organizers on AWS), and tool parameters provided by the tool authors. This report summarizes the rules, benchmarks, participating tools, results, and lessons learned from this competition.
翻訳日:2021-09-02 14:15:39 公開日:2021-08-31
# サイバー専門家のパフォーマンスデータを用いた自律的欺取システムの実現

Informing Autonomous Deception Systems with Cyber Expert Performance Data ( http://arxiv.org/abs/2109.00066v1 )

ライセンス: Link先を確認
Maxine Major, Brian Souza, Joseph DiVita, Kimberly Ferguson-Walter(参考訳) 人工知能(AI)アルゴリズムの性能は、アルゴリズムが提供するデータ、モデル、フィードバック(ラベルまたは報酬)の現実性と正確性に依存する。 本稿では、逆強化学習(Inverse Reinforcement Learning, IRL)を用いて攻撃行動、これらの行動の有用性、そして最終的にサイバー詐欺が阻止できる決定ポイントの洞察を得ることにより、自律的なサイバー防衛に使用されるAIのリアリズムと生態的妥当性を改善する方法について議論する。 例えば、Tularosaの研究は、攻撃者がよく使う現実世界の技術とツールの実験データを提供し、そこからコアデータベクターを利用して自律的なサイバー防御システムに通知する。

The performance of artificial intelligence (AI) algorithms in practice depends on the realism and correctness of the data, models, and feedback (labels or rewards) provided to the algorithm. This paper discusses methods for improving the realism and ecological validity of AI used for autonomous cyber defense by exploring the potential to use Inverse Reinforcement Learning (IRL) to gain insight into attacker actions, utilities of those actions, and ultimately decision points which cyber deception could thwart. The Tularosa study, as one example, provides experimental data of real-world techniques and tools commonly used by attackers, from which core data vectors can be leveraged to inform an autonomous cyber defense system.
翻訳日:2021-09-02 14:15:22 公開日:2021-08-31
# バイオインスパイアされたロボット知覚とロボットモデルによる人間知覚

Bio-inspired robot perception coupled with robot-modeled human perception ( http://arxiv.org/abs/2109.00097v1 )

ライセンス: Link先を確認
Tobias Fischer(参考訳) 私の目指す研究目標は、人間のような方法で人間と対話できる知覚能力を持つロボットを提供することです。 これらの知覚能力を開発するためには,人間の視覚システムの原理を研究することが有用であると考えられる。 私はこれらの原則を使って、新しいコンピュータビジョンアルゴリズムを開発し、インテリジェントなロボットシステムでの有効性を検証する。 私はこのアプローチに熱心です。それは、人間の視覚システムに固有の原則を明らかにすることと、これらの原則をその人工的なシステムに適用することの2つの利点を提供します。 フィギュア。 1は私の研究の描写を含んでいる。

My overarching research goal is to provide robots with perceptional abilities that allow interactions with humans in a human-like manner. To develop these perceptional abilities, I believe that it is useful to study the principles of the human visual system. I use these principles to develop new computer vision algorithms and validate their effectiveness in intelligent robotic systems. I am enthusiastic about this approach as it offers the dual benefit of uncovering principles inherent in the human visual system, as well as applying these principles to its artificial counterpart. Fig. 1 contains a depiction of my research.
翻訳日:2021-09-02 14:13:39 公開日:2021-08-31
# 病理組織像におけるミトコンドリア細胞検出のための2段階ドメイン適応

Two-step Domain Adaptation for Mitosis Cell Detection in Histopathology Images ( http://arxiv.org/abs/2109.00109v1 )

ライセンス: Link先を確認
Ramin Nateghi, Fattaneh Pourakpour(参考訳) 本稿では,高速RCNNと畳み込みニューラルネットワーク(CNN)に基づく2段階領域シフト不変ミオシス細胞検出法を提案する。 我々は,染色拡大技術を用いて既存の病理画像のドメインシフトバージョンを複数生成し,様々な染色領域を効果的に学習し,より高度な一般化を実現する。 本手法の性能はMIDOG-2021チャレンジの予備試験データセットに基づいて評価した。 実験の結果,提案手法は,領域シフトした病理組織像に対して有望な性能を達成できることが示された。

We propose a two-step domain shift-invariant mitosis cell detection method based on Faster RCNN and a convolutional neural network (CNN). We generate various domain-shifted versions of existing histopathology images using a stain augmentation technique, enabling our method to effectively learn various stain domains and achieve better generalization. The performance of our method is evaluated on the preliminary test data set of the MIDOG-2021 challenge. The experimental results demonstrate that the proposed mitosis detection method can achieve promising performance for domain-shifted histopathology images.
翻訳日:2021-09-02 14:13:29 公開日:2021-08-31
# ディープDNAストレージ:コーディング理論とディープラーニングによるスケーラブルでロバストなDNAストレージ

Deep DNA Storage: Scalable and Robust DNA Storage via Coding Theory and Deep Learning ( http://arxiv.org/abs/2109.00031v1 )

ライセンス: Link先を確認
Daniella Bar-Lev, Itai Orr, Omer Sabary, Tuvi Etzion, Eitan Yaakobi(参考訳) このDNA保存の概念は1959年にリチャード・ファインマン(Richard Feynman)によって初めて提案された。 その後、20世紀の終わりごろ、ヒトゲノムプロジェクトの結果、DNA分子に基づく貯蔵ソリューションへの関心が高まり、シーケンシングや組立法が大幅に進歩した。 DNAストレージは、確立された磁気および光ストレージソリューションに対して大きな利点がある。 磁気ソリューションとは対照的に、DNAストレージはデータの整合性を維持するために電気的供給を必要としないため、密度と耐久性の両方において他のストレージソリューションよりも優れている。 DNA合成とシークエンシングのコスト低下の傾向を考えると、今後10~15年以内にDNA保存が高度に競争力のあるアーカイビング技術となり、後に主要な技術になる可能性が認識されている。 とはいえ、現在のDNAベースのストレージシステムの実装は非常に限られており、合成とシークエンシングを特徴付けるエラーのユニークなパターンに完全に最適化されていない。 本研究では、DNAベースのストレージシステムを実装するための堅牢で効率的でスケーラブルなソリューションを提案する。 本手法では,合成およびシークエンシングプロセスによって生成されたコピーの完全クラスタに基づいて,文字列を再構成するディープニューラルネットワーク(DNN)をデプロイする。 この過程で発生するエラーのパターンに対処するために、テーラーメイドのエラー修正コード(ECC)が使用される。 再構成手法は不完全なクラスタに適応するため,高速でスケーラブルな擬似クラスタリングを用いることで,ノイズの多いDNAコピークラスタリングプロセスの時間的ボトルネックを克服する。 我々のアーキテクチャは畳み込みブロックと変圧器ブロックを組み合わせ、実際のデータ統計の後にモデル化された合成データを用いて訓練される。

The concept of DNA storage was first suggested in 1959 by Richard Feynman who shared his vision regarding nanotechnology in the talk "There is plenty of room at the bottom". Later, towards the end of the 20-th century, the interest in storage solutions based on DNA molecules was increased as a result of the human genome project which in turn led to a significant progress in sequencing and assembly methods. DNA storage enjoys major advantages over the well-established magnetic and optical storage solutions. As opposed to magnetic solutions, DNA storage does not require electrical supply to maintain data integrity and is superior to other storage solutions in both density and durability. Given the trends in cost decreases of DNA synthesis and sequencing, it is now acknowledged that within the next 10-15 years DNA storage may become a highly competitive archiving technology and probably later the main such technology. With that said, the current implementations of DNA based storage systems are very limited and are not fully optimized to address the unique pattern of errors which characterize the synthesis and sequencing processes. In this work, we propose a robust, efficient and scalable solution to implement DNA-based storage systems. Our method deploys Deep Neural Networks (DNN) which reconstruct a sequence of letters based on imperfect cluster of copies generated by the synthesis and sequencing processes. A tailor-made Error-Correcting Code (ECC) is utilized to combat patterns of errors which occur during this process. Since our reconstruction method is adapted to imperfect clusters, our method overcomes the time bottleneck of the noisy DNA copies clustering process by allowing the use of a rapid and scalable pseudo-clustering instead. Our architecture combines between convolutions and transformers blocks and is trained using synthetic data modelled after real data statistics.
翻訳日:2021-09-02 14:11:29 公開日:2021-08-31
# kdd 2021 workshop on data-driven humanitarian mapping: using human-machine intelligence for high-stake public policy and resilience planning (特集 ヒューマン・マシン・インテリジェンス)

Proceedings of KDD 2021 Workshop on Data-driven Humanitarian Mapping: Harnessing Human-Machine Intelligence for High-Stake Public Policy and Resilience Planning ( http://arxiv.org/abs/2109.00100v1 )

ライセンス: Link先を確認
Snehalkumar (Neil) S. Gaikwad, Shankar Iyer, Dalton Lunga, Elizabeth Bondi(参考訳) 自然災害、食料不足、気候変動、人種と性別の暴力、環境危機、新型コロナウイルス(COVID-19)のパンデミック、人権侵害、強制移住などの人道的課題は、世界中の脆弱なコミュニティに不当に影響を及ぼす。 OCHAによると、20211年には2億3500万人が人道支援を必要としている。 これらの増加にもかかわらず、リスクの高い人口の生活を改善するための公平な公共政策決定を科学的に伝えるために、データサイエンス研究の顕著なパキュリティが残っている。 散在するデータサイエンスの努力はこれらの課題に対処するために存在するが、プライバシー、公正性、解釈性、説明責任、透明性、倫理の欠如に関するアルゴリズム的な危害を招きやすい。 データ駆動方式のバイアスは、何百万人もの人々の生活に影響を及ぼす高リスク政策決定の不平等を増幅するリスクを負う。 その結果、人道的行動とグローバルな発展の核心にある政策立案者、実践者、辺境化コミュニティには、データ駆動型イノベーションの利点が依然としてアクセス不可能である。 このギャップを埋めるために、我々は、人間のマシンインテリジェンスを利用した新しいデータサイエンス方法論の開発に焦点をあてた、データ駆動型人道マッピング研究プログラムを提案する。

Humanitarian challenges, including natural disasters, food insecurity, climate change, racial and gender violence, environmental crises, the COVID-19 coronavirus pandemic, human rights violations, and forced displacements, disproportionately impact vulnerable communities worldwide. According to UN OCHA, 235 million people will require humanitarian assistance in 20211 . Despite these growing perils, there remains a notable paucity of data science research to scientifically inform equitable public policy decisions for improving the livelihood of at-risk populations. Scattered data science efforts exist to address these challenges, but they remain isolated from practice and prone to algorithmic harms concerning lack of privacy, fairness, interpretability, accountability, transparency, and ethics. Biases in data-driven methods carry the risk of amplifying inequalities in high-stakes policy decisions that impact the livelihood of millions of people. Consequently, proclaimed benefits of data-driven innovations remain inaccessible to policymakers, practitioners, and marginalized communities at the core of humanitarian actions and global development. To help fill this gap, we propose the Data-driven Humanitarian Mapping Research Program, which focuses on developing novel data science methodologies that harness human-machine intelligence for high-stakes public policy and resilience planning.
翻訳日:2021-09-02 14:11:00 公開日:2021-08-31
# ニューラル常微分方程式を用いた時空間カオスのデータ駆動低次モデリング

Data-Driven Reduced-Order Modeling of Spatiotemporal Chaos with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2109.00060v1 )

ライセンス: Link先を確認
Alec J. Linot and Michael D. Graham(参考訳) カオス力学を示す散逸偏微分方程式は、有限次元多様体上に存在する誘引子へと進化する傾向がある。 本稿では,この事実に乗じて,この多様体の座標を求め,この座標系の力学を記述する常微分方程式(ode)を求めるデータ駆動還元次数モデリング手法を提案する。 多様体座標は、未完のオートエンコーダ(ニューラルネットワーク(nn))を用いて発見され、次元を縮小する。 次に、これらの座標におけるODEは、ニューラルODEフレームワークを用いてNNによって近似される。 どちらの手法もモデルを学習するためにデータのスナップショットしか必要とせず、データは広く、あるいは不均一に空間化できる。 この枠組みを倉本・シヴァシンスキーにカオスダイナミクスを示す異なるドメインサイズに適用する。 このシステムでは,アーティファクトが発生する環境空間における予測と比較して,次元の縮小により性能が向上することがわかった。 そして、低次元モデルを用いて、トレーニングデータの間隔を変動させ、広帯域データ(約0.7リプノフ時間)の真のダイナミクスの優れた短時間および長時間の統計レクリエーションを見出す。 最終的に、性能を様々な次元還元度と比較し、性能と寸法の点で「スイートスポット」を見つけます。

Dissipative partial differential equations that exhibit chaotic dynamics tend to evolve to attractors that exist on finite-dimensional manifolds. We present a data-driven reduced order modeling method that capitalizes on this fact by finding the coordinates of this manifold and finding an ordinary differential equation (ODE) describing the dynamics in this coordinate system. The manifold coordinates are discovered using an undercomplete autoencoder -- a neural network (NN) that reduces then expands dimension. Then the ODE, in these coordinates, is approximated by a NN using the neural ODE framework. Both of these methods only require snapshots of data to learn a model, and the data can be widely and/or unevenly spaced. We apply this framework to the Kuramoto-Sivashinsky for different domain sizes that exhibit chaotic dynamics. With this system, we find that dimension reduction improves performance relative to predictions in the ambient space, where artifacts arise. Then, with the low-dimensional model, we vary the training data spacing and find excellent short- and long-time statistical recreation of the true dynamics for widely spaced data (spacing of ~0.7 Lyapunov times). We end by comparing performance with various degrees of dimension reduction, and find a "sweet spot" in terms of performance vs. dimension.
翻訳日:2021-09-02 14:09:20 公開日:2021-08-31
# GFINNs:決定論的・確率力学系のための汎用形式的インフォームドニューラルネットワーク

GFINNs: GENERIC Formalism Informed Neural Networks for Deterministic and Stochastic Dynamical Systems ( http://arxiv.org/abs/2109.00092v1 )

ライセンス: Link先を確認
Zhen Zhang, Yeonjong Shin, George Em Karniadakis(参考訳) 本稿では,ジェネリックフォーマリズムの対称縮退条件に従う汎用的フォーマリズムインフォームドニューラルネットワーク(gfinns)を提案する。 GFINNは2つのモジュールから構成され、それぞれが2つのコンポーネントを含んでいる。 必要な条件を満たすように設計したニューラルネットワークを用いて,各コンポーネントをモデル化する。 コンポーネント指向アーキテクチャ設計は、利用可能な物理情報をニューラルネットワークに活用するための柔軟な方法を提供する。 理論的には、GFINNは基礎となる方程式を学習するのに十分な表現力があることを証明し、普遍近似定理を確立する。 熱と体積を交換するガス容器,熱弾性二重振り子,ランゲヴィン力学の3つのシミュレーション問題において,GFINNの性能を示す。 すべての例において、GFINNは既存の手法よりも優れており、決定論的および確率的システムの予測において優れた精度を示す。

We propose the GENERIC formalism informed neural networks (GFINNs) that obey the symmetric degeneracy conditions of the GENERIC formalism. GFINNs comprise two modules, each of which contains two components. We model each component using a neural network whose architecture is designed to satisfy the required conditions. The component-wise architecture design provides flexible ways of leveraging available physics information into neural networks. We prove theoretically that GFINNs are sufficiently expressive to learn the underlying equations, hence establishing the universal approximation theorem. We demonstrate the performance of GFINNs in three simulation problems: gas containers exchanging heat and volume, thermoelastic double pendulum and the Langevin dynamics. In all the examples, GFINNs outperform existing methods, hence demonstrating good accuracy in predictions for both deterministic and stochastic systems.
翻訳日:2021-09-02 14:08:58 公開日:2021-08-31
# グラフニューラルネットワークのスケーリングのための位置ベースハッシュ埋め込み

Position-based Hash Embeddings For Scaling Graph Neural Networks ( http://arxiv.org/abs/2109.00101v1 )

ライセンス: Link先を確認
Maria Kalantzi, George Karypis(参考訳) グラフニューラルネットワーク(GNN)は、グラフとリレーショナルデータにディープ表現学習のパワーをもたらし、多くのアプリケーションで最先端のパフォーマンスを実現する。 GNNは、ノードのego-networkのトポロジーとego-networkのノードの特徴を考慮してノード表現を計算する。 ノードが高品質な機能を持っていない場合、GNNはノードの埋め込みを計算するために埋め込み層を学び、それらを入力機能として使用する。 しかし、埋め込み層のサイズはグラフサイズに線形であり、数億のノードを持つグラフにはスケールしない。 この埋め込みレイヤに関連するメモリを削減するため、NLPやレコメンダシステムのようなアプリケーションで一般的に使用されるハッシュベースのアプローチが利用可能である。 しかし、これらのアイデアの直接的な応用は、多くの実世界のグラフにおいて、位相的に近いノードが互いに関連し(ホモフィリー)、それらの表現が類似するという事実を利用することができない。 本稿では,GNNモデルの品質劣化を最小限に抑えながら,グラフ内のノードの位置を利用して必要なメモリを劇的に削減する手法を提案する。 当社のアプローチでは,ノードの埋め込みを2つのコンポーネント – 位置固有コンポーネントとノード固有コンポーネント – に分解する。 位置特化コンポーネントはホモフィリーに、ノード特化コンポーネントはノード間変動をモデル化する。 異なるデータセットとGNNモデルを用いた大規模な実験により、ほぼすべてのケースにおいて、我々の手法は、完全な埋め込みを含む他の競合するアプローチよりも優れた分類精度を達成しつつ、メモリ要求を86%から97%削減できることが示された。

Graph Neural Networks (GNNs) bring the power of deep representation learning to graph and relational data and achieve state-of-the-art performance in many applications. GNNs compute node representations by taking into account the topology of the node's ego-network and the features of the ego-network's nodes. When the nodes do not have high-quality features, GNNs learn an embedding layer to compute node embeddings and use them as input features. However, the size of the embedding layer is linear to the graph size and does not scale to graphs with hundreds of millions of nodes. To reduce the memory associated with this embedding layer, hashing-based approaches, commonly used in applications like NLP and recommender systems, can potentially be used. However, a direct application of these ideas fails to exploit the fact that in many real-world graphs, nodes that are topologically close will tend to be related to each other (homophily) and as such their representations will be similar. In this work, we present approaches that take advantage of the nodes' position in the graph to dramatically reduce the memory required, with minimal if any degradation in the quality of the resulting GNN model. Our approaches decompose a node's embedding into two components: a position-specific component and a node-specific component. The position-specific component models homophily and the node-specific component models the node-to-node variation. Extensive experiments using different datasets and GNN models show that in nearly all cases, our methods are able to reduce the memory requirements by 86% to 97% while achieving better classification accuracy than other competing approaches, including the full embeddings.
翻訳日:2021-09-02 14:08:44 公開日:2021-08-31
# thresholdnet: 密結合畳み込みネットワークのためのプルーニングツール

ThresholdNet: Pruning Tool for Densely Connected Convolutional Networks ( http://arxiv.org/abs/2108.12604v2 )

ライセンス: Link先を確認
Rui-Yang Ju, Ting-Yu Lin, Jen-Shiun Chiang(参考訳) ディープニューラルネットワークはコンピュータビジョンの分野で大きな進歩を遂げている。 近年の研究では、ニューラルネットワークアーキテクチャの深さ、幅、ショートカット接続が、その性能において重要な役割を果たすことが示されている。 最も先進的なニューラルネットワークアーキテクチャのひとつであるDenseNetは、高密度接続による優れた収束率を達成した。 しかし、メモリ使用量にはまだ明らかな欠点がある。 本稿では,MOSFETにおけるしきい値電圧の原理を参考に,新しいタイプのプルーニングツール「しきい値」を提案する。 この手法は、異なる深さのブロックを異なる方法で接続し、メモリの使用を減らすために使用される。 ThresholdNetと表記される。 我々は、CIFAR10のデータセット上でThresholdNetや他の異なるネットワークを評価する。 実験によると、HarDNetはDenseNetの2倍の速さで、ThresholdNetはHarDNetよりも10%速く、エラー率は10%低い。

Deep neural networks have made significant progress in the field of computer vision. Recent studies have shown that depth, width and shortcut connections of neural network architectures play a crucial role in their performance. One of the most advanced neural network architectures, DenseNet, has achieved excellent convergence rates through dense connections. However, it still has obvious shortcomings in the usage of amount of memory. In this paper, we introduce a new type of pruning tool, threshold, which refers to the principle of the threshold voltage in MOSFET. This work employs this method to connect blocks of different depths in different ways to reduce the usage of memory. It is denoted as ThresholdNet. We evaluate ThresholdNet and other different networks on datasets of CIFAR10. Experiments show that HarDNet is twice as fast as DenseNet, and on this basis, ThresholdNet is 10% faster and 10% lower error rate than HarDNet.
翻訳日:2021-09-02 11:31:39 公開日:2021-08-31
# (参考訳) 有効受容場を用いたデッドピクセル試験 [全文訳有]

Dead Pixel Test Using Effective Receptive Field ( http://arxiv.org/abs/2108.13576v1 )

ライセンス: CC BY 4.0
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Dong Gu Lee, Wonseok Jeong, and Sang Woo Kim(参考訳) ディープニューラルネットワークは様々な分野で使用されているが、その内部挙動はよく分かっていない。 本研究では,畳み込みニューラルネットワーク(CNN)の2つの逆直観的動作について論じる。 まず,受容野の大きさについて検討した。 以前の研究では受容野の大きさを増加または制御しようと試みている。 しかし, 受容場の大きさは分類精度を記述していないことがわかった。 受容場の大きさは、深さやカーネルサイズのみを反映し、幅や濃度といった他の要因を反映しないため、性能の優位性を表すには不適当である。 第2に,有効受容場を用いて,出力に寄与する画素について検討した。 直感的には、各ピクセルは最終出力に等しく寄与することが期待される。 しかし,出力にはほとんど寄与しない部分死状態の画素が存在することが判明した。 この原因がCNNのアーキテクチャにあることを明らかにし、この現象を減らすための解決策について議論する。 興味深いことに、一般的な分類タスクでは、デッドピクセルの存在はCNNのトレーニングを改善する。 しかし、小さな摂動を捉えるタスクでは、デッドピクセルが性能を劣化させる。 したがって、これらの死画素の存在はCNNの実践的応用において理解され検討されるべきである。

Deep neural networks have been used in various fields, but their internal behavior is not well known. In this study, we discuss two counterintuitive behaviors of convolutional neural networks (CNNs). First, we evaluated the size of the receptive field. Previous studies have attempted to increase or control the size of the receptive field. However, we observed that the size of the receptive field does not describe the classification accuracy. The size of the receptive field would be inappropriate for representing superiority in performance because it reflects only depth or kernel size and does not reflect other factors such as width or cardinality. Second, using the effective receptive field, we examined the pixels contributing to the output. Intuitively, each pixel is expected to equally contribute to the final output. However, we found that there exist pixels in a partially dead state with little contribution to the output. We reveal that the reason for this lies in the architecture of CNN and discuss solutions to reduce the phenomenon. Interestingly, for general classification tasks, the existence of dead pixels improves the training of CNNs. However, in a task that captures small perturbation, dead pixels degrade the performance. Therefore, the existence of these dead pixels should be understood and considered in practical applications of CNN.
翻訳日:2021-09-02 04:42:33 公開日:2021-08-31
# (参考訳) 転写学習とデータ融合による頭部衝撃型における脳のひずみとひずみ速度の迅速かつ正確に推定 [全文訳有]

Rapidly and accurately estimating brain strain and strain rate across head impact types with transfer learning and data fusion ( http://arxiv.org/abs/2108.13577v1 )

ライセンス: CC BY 4.0
Xianghao Zhan, Yuzhe Liu, Nicholas J. Cecchi, Olivier Gevaert, Michael M. Zeineh, Gerald A. Grant, David B. Camarillo(参考訳) 脳のひずみとひずみ速度は頭部衝撃による外傷性脳損傷(tbi)の予測に有効である。 しかし、最先端有限要素モデリング(FEM)では計算にかなりの時間を要するため、リアルタイムのTBIリスクモニタリングにおける適用が制限される。 機械学習ヘッドモデル(mlhms)が開発され、トレーニング/テストデータセットがヘッドインパクトタイプによって異なる場合、モデルの精度が低下することが判明した。 しかし、特定のインパクトタイプのデータセットのサイズは、モデルのトレーニングには不十分かもしれない。 本研究では,FEMの計算コスト,限られたひずみ速度予測,およびMLHMの現場データセットへの一般化可能性に対処するため,MLHMの最大主ひずみ(MPS)と最大主ひずみ(MPSR)を予測するための一連のMLHMを開発するために,データ融合と移動学習を提案する。 MLHMを13,623個の頭部衝撃、アメリカンフットボール、混成格闘技、カークラッシュで訓練し、シミュレーションのみまたはフィールド上の衝撃でトレーニングされたモデルと比較した。 トランスファーラーニングで開発されたMLHMは、MPSとMPSRを他のモデルよりも正確に推定し、平均絶対誤差(MAE)はMPSを0.03以下、MPSRを全てのインパクトデータセットで予測すると7 (1/s)以下である。 MLHMは様々な頭部衝撃タイプに適用でき、脳のひずみとひずみ率を迅速かつ正確に計算できる。 リアルタイム脳ひずみおよびひずみ速度モニタリングにおける臨床応用の他に、このモデルは、頭部衝撃による脳ひずみとひずみ速度をfemよりも効率的に推定するのに役立つ。

Brain strain and strain rate are effective in predicting traumatic brain injury (TBI) caused by head impacts. However, state-of-the-art finite element modeling (FEM) demands considerable computational time in the computation, limiting its application in real-time TBI risk monitoring. To accelerate, machine learning head models (MLHMs) were developed, and the model accuracy was found to decrease when the training/test datasets were from different head impacts types. However, the size of dataset for specific impact types may not be enough for model training. To address the computational cost of FEM, the limited strain rate prediction, and the generalizability of MLHMs to on-field datasets, we propose data fusion and transfer learning to develop a series of MLHMs to predict the maximum principal strain (MPS) and maximum principal strain rate (MPSR). We trained and tested the MLHMs on 13,623 head impacts from simulations, American football, mixed martial arts, car crash, and compared against the models trained on only simulations or only on-field impacts. The MLHMs developed with transfer learning are significantly more accurate in estimating MPS and MPSR than other models, with a mean absolute error (MAE) smaller than 0.03 in predicting MPS and smaller than 7 (1/s) in predicting MPSR on all impact datasets. The MLHMs can be applied to various head impact types for rapidly and accurately calculating brain strain and strain rate. Besides the clinical applications in real-time brain strain and strain rate monitoring, this model helps researchers estimate the brain strain and strain rate caused by head impacts more efficiently than FEM.
翻訳日:2021-09-02 04:30:42 公開日:2021-08-31
# (参考訳) マルチリニア力学系と制御への新しいアプローチ [全文訳有]

A New Approach to Multilinear Dynamical Systems and Control ( http://arxiv.org/abs/2108.13583v1 )

ライセンス: CC BY 4.0
Randy C. Hoover, Kyle Caudle, and Karen Braman(参考訳) 本稿では,多線形力学系の解析と制御に対する新しいアプローチを提案する。 このアプローチは、テンソル分解と新しく定義された循環環の最近の発展に基づいている。 特に、右テンソル乗算作用素の下では、「固有ベクトル」が固有行列となり、「固有値」が固有タプルとなるような伝統的な行列固有値分解に類似した3階テンソルの積として3階テンソルを記述することができる。 この新たな発展により、適切なテンソル固有値分解が定義でき、 \textit{tensor-exponential} を通じて線形系理論への自然な拡張を持つ。 このフレームワークを通じて、線形システム理論で使用される多くの伝統的な技法を、その多線型な手法に拡張する。

The current paper presents a new approach to multilinear dynamical systems analysis and control. The approach is based upon recent developments in tensor decompositions and a newly defined algebra of circulants. In particular, it is shown that under the right tensor multiplication operator, a third order tensor can be written as a product of third order tensors that is analogous to a traditional matrix eigenvalue decomposition where the "eigenvectors" become eigenmatrices and the "eigenvalues" become eigen-tuples. This new development allows for a proper tensor eigenvalue decomposition to be defined and has natural extension to linear systems theory through a \textit{tensor-exponential}. Through this framework we extend many of traditional techniques used in linear system theory to their multilinear counterpart.
翻訳日:2021-09-02 04:00:29 公開日:2021-08-31
# (参考訳) ハイパースペクトル超解像のためのスペクトル分割と凝集ネットワーク [全文訳有]

Spectral Splitting and Aggregation Network for Hyperspectral Face Super-Resolution ( http://arxiv.org/abs/2108.13584v1 )

ライセンス: CC BY 4.0
Junjun Jiang and Chenyang Wang and Kui Jiang and Xianming Liu and Jiayi Ma(参考訳) 高分解能(HR)ハイパースペクトル顔画像は、低照度環境やスプーフ攻撃などの制御されていない条件下での顔関連コンピュータビジョンタスクにおいて重要な役割を果たす。 しかし、超スペクトル顔画像の高密度スペクトル帯域は、限られた量の光子のコストで平均して狭いスペクトル窓に達し、超スペクトル顔画像の空間分解能を大幅に減少させる。 本稿では,ハイパースペクトル顔画像超解像(HFSR)への深層学習手法の適用について検討する。 画像として各帯域を見ることができるスペクトル帯域の量から,HFSRのためのスペクトル分割集約ネットワーク(SSANet)を,限られたトレーニングサンプルで提示する。 浅い層では、ハイパースペクトル画像を異なるスペクトル群に分割し、それぞれを個別のトレーニングサンプルとして(各グループが同じネットワークに入力されるという意味で)とします。 そして、より深い層に隣接するバンドを徐々に集約し、スペクトル相関を利用する。 このスペクトル分割アグリゲーション戦略(SSAS)により、元のハイパースペクトル画像を複数のサンプルに分割し、ネットワークの効率的なトレーニングを支援し、スペクトル間のスペクトル相関を効果的に活用することができる。 そこで本研究では, 自己表現モデルと対称性による拡張により, トレーニングサンプルのサイズを小さくすること (S3) の課題に対処する。 実験の結果,SSANetは空間情報とスペクトル情報の相関関係をうまくモデル化できることがわかった。 トレーニングサンプルの拡大により,提案手法はS3問題を効果的に緩和することができる。 比較結果は,提案手法が最先端技術より優れていることを示す。

High-resolution (HR) hyperspectral face image plays an important role in face related computer vision tasks under uncontrolled conditions, such as low-light environment and spoofing attacks. However, the dense spectral bands of hyperspectral face images come at the cost of limited amount of photons reached a narrow spectral window on average, which greatly reduces the spatial resolution of hyperspectral face images. In this paper, we investigate how to adapt the deep learning techniques to hyperspectral face image super-resolution (HFSR), especially when the training samples are very limited. Benefiting from the amount of spectral bands, in which each band can be seen as an image, we present a spectral splitting and aggregation network (SSANet) for HFSR with limited training samples. In the shallow layers, we split the hyperspectral image into different spectral groups and take each of them as an individual training sample (in the sense that each group will be fed into the same network). Then, we gradually aggregate the neighbor bands at the deeper layers to exploit the spectral correlations. By this spectral splitting and aggregation strategy (SSAS), we can divide the original hyperspectral image into multiple samples to support the efficient training of the network and effectively exploit the spectral correlations among spectrum. To cope with the challenge of small training sample size (S3) problem, we propose to expand the training samples by a self-representation model and symmetry-induced augmentation. Experiments show that the introduced SSANet can well model the joint correlations of spatial and spectral information. By expanding the training samples, our proposed method can effectively alleviate the S3 problem. The comparison results demonstrate that our proposed method can outperform the state-of-the-arts.
翻訳日:2021-09-02 03:45:52 公開日:2021-08-31
# (参考訳) T3-Vis:NLPのトレーニングおよび微調整変圧器のための視覚分析フレームワーク [全文訳有]

T3-Vis: a visual analytic framework for Training and fine-Tuning Transformers in NLP ( http://arxiv.org/abs/2108.13587v1 )

ライセンス: CC BY 4.0
Raymond Li (1), Wen Xiao (1), Lanjun Wang (2), Hyeju Jang (1), Giuseppe Carenini (1) ((1) University of British Columbia, (2) Huawei Cananda Technologies Co. Ltd.)(参考訳) トランスフォーマーはNLPの主要なアーキテクチャであるが、トレーニングと微調整は依然として非常に難しい。 本稿では,そのようなプロセスにおける研究者支援のための視覚分析フレームワークの設計と実装について,モデル固有の特性と行動に関する貴重な知見を提供する。 私たちのフレームワークは、インタラクティブな視覚化を通じてモデルの異なる面(例えば隠れた状態、注意)を探索できる直感的な概要を提供し、モデルコンポーネントと入力シーケンスの異なる部分の重要性を計算する一連の組み込みアルゴリズムを可能にします。 ケーススタディとユーザフォーカスグループからのフィードバックは、フレームワークが有用であることを示し、いくつかの改善を提案する。

Transformers are the dominant architecture in NLP, but their training and fine-tuning is still very challenging. In this paper, we present the design and implementation of a visual analytic framework for assisting researchers in such process, by providing them with valuable insights about the model's intrinsic properties and behaviours. Our framework offers an intuitive overview that allows the user to explore different facets of the model (e.g., hidden states, attention) through interactive visualization, and allows a suite of built-in algorithms that compute the importance of model components and different parts of the input sequence. Case studies and feedback from a user focus group indicate that the framework is useful, and suggest several improvements.
翻訳日:2021-09-02 03:10:40 公開日:2021-08-31
# (参考訳) SMAC-Seg: スパース多方向アテンションクラスタリングによるLiDARパノプティブセグメンテーション [全文訳有]

SMAC-Seg: LiDAR Panoptic Segmentation via Sparse Multi-directional Attention Clustering ( http://arxiv.org/abs/2108.13588v1 )

ライセンス: CC BY-SA 4.0
Enxu Li, Ryan Razani, Yixuan Xu and Liu Bingbing(参考訳) panoptic segmentationは、セマンティクスとインスタンスセグメンテーションを同時に統一フレームワークで扱うことを目的としている。 しかし、自動運転のようなアプリケーションにおけるパノプティカルセグメンテーションの効率的なソリューションは、まだオープンな研究課題である。 本研究では,SMAC-Segと呼ばれる新しいLiDAR系パノプティクスシステムを提案する。 学習可能なスパースな多方向アテンションクラスタリングを複数スケールのフォアグラウンドインスタンスに提示する。 SMAC-Segはリアルタイムクラスタリングベースのアプローチであり、インスタンスをセグメント化する複雑な提案ネットワークを取り除く。 既存のクラスタリングベースのほとんどの方法は、予測された真理中心と基底真理中心のオフセットの違いを、インスタンスの遠心回帰を監視する唯一の損失として使用する。 しかし、この損失関数は、現在のオブジェクトのセンタロイドのみを考慮するが、その隣接オブジェクトに対する相対位置は、クラスタへの学習時に考慮されない。 そこで本研究では,ネットワークを効果的に監視し,各対象クラスタを隣接ノードと区別するために,新たなセンタロイド・アウェア・レペルロスを付加項として用いることを提案する。 実験の結果,smac-segは,大規模semantickittiとnuscenes panopticセグメンテーションデータセットの両方において,リアルタイムデプロイ可能なネットワークにおいて最先端のパフォーマンスを実現することがわかった。

Panoptic segmentation aims to address semantic and instance segmentation simultaneously in a unified framework. However, an efficient solution of panoptic segmentation in applications like autonomous driving is still an open research problem. In this work, we propose a novel LiDAR-based panoptic system, called SMAC-Seg. We present a learnable sparse multi-directional attention clustering to segment multi-scale foreground instances. SMAC-Seg is a real-time clustering-based approach, which removes the complex proposal network to segment instances. Most existing clustering-based methods use the difference of the predicted and ground truth center offset as the only loss to supervise the instance centroid regression. However, this loss function only considers the centroid of the current object, but its relative position with respect to the neighbouring objects is not considered when learning to cluster. Thus, we propose to use a novel centroid-aware repel loss as an additional term to effectively supervise the network to differentiate each object cluster with its neighbours. Our experimental results show that SMAC-Seg achieves state-of-the-art performance among all real-time deployable networks on both large-scale public SemanticKITTI and nuScenes panoptic segmentation datasets.
翻訳日:2021-09-02 02:57:56 公開日:2021-08-31
# (参考訳) 広告の微調整はbertにどんなメリットがあるのか? [全文訳有]

How Does Adversarial Fine-Tuning Benefit BERT? ( http://arxiv.org/abs/2108.13602v1 )

ライセンス: CC BY 4.0
Javid Ebrahimi, Hao Yang, Wei Zhang(参考訳) 敵意トレーニング(adversarial training, at)は、機械学習における敵意攻撃を防御する最も信頼できる方法の1つである。 この手法の変数は,NLPベンチマーク上でのSOTA結果の正則化機構として利用されており,伝達学習や連続学習に有用であることが確認されている。 我々は,バニラモデルと逆調整したBERTモデルとの対比により,ATの有効性の理由を探索する。 細調整中のBERTの統語能力を部分的に保存することがATの成功の鍵となる。 逆向きに微調整されたモデルは、BERTの言語モデリング行動に忠実であり、語順に敏感であることが観察された。 構文能力の具体例として、敵対的に微調整されたモデルは、アナフォラ合意で最大38%、依存関係解析で最大11%の利点がある。 分析の結果,バニラ微調整は文表現を単純化し,単語のラベル表示に重きを置いていることがわかった。 しかし、これらの影響力のある単語の効果を弱め、表現の多様性を奨励する。 これにより文のより階層的な表現が可能になり、BERTの構文能力の喪失が軽減される。

Adversarial training (AT) is one of the most reliable methods for defending against adversarial attacks in machine learning. Variants of this method have been used as regularization mechanisms to achieve SOTA results on NLP benchmarks, and they have been found to be useful for transfer learning and continual learning. We search for the reasons for the effectiveness of AT by contrasting vanilla and adversarially fine-tuned BERT models. We identify partial preservation of BERT's syntactic abilities during fine-tuning as the key to the success of AT. We observe that adversarially fine-tuned models remain more faithful to BERT's language modeling behavior and are more sensitive to the word order. As concrete examples of syntactic abilities, an adversarially fine-tuned model could have an advantage of up to 38% on anaphora agreement and up to 11% on dependency parsing. Our analysis demonstrates that vanilla fine-tuning oversimplifies the sentence representation by focusing heavily on one or a few label-indicative words. AT, however, moderates the effect of these influential words and encourages representational diversity. This allows for a more hierarchical representation of a sentence and leads to the mitigation of BERT's loss of syntactic abilities.
翻訳日:2021-09-02 02:37:16 公開日:2021-08-31
# (参考訳) セグメンテーション障害: 敵対的機械学習に対する安価な防御 [全文訳有]

Segmentation Fault: A Cheap Defense Against Adversarial Machine Learning ( http://arxiv.org/abs/2108.13617v1 )

ライセンス: CC BY 4.0
Doha Al Bared and Mohamed Nassar(参考訳) 最近発表されたディープニューラルネットワーク(DNN)に対する攻撃は、重要なシステムでこの技術を使用する際のセキュリティリスクを評価する方法論とツールの重要性を強調している。 敵機械学習を効果的に検出する技術は、信頼を確立し、センシティブなセキュリティシステムにおけるディープラーニングの採用を促進するのに役立つ。 本稿では,深層ニューラルネットワーク分類器,特に畳み込みニューラルネットワークを防御する新しい手法を提案する。 我々の防御は、検出精度が低いにもかかわらず、少ない計算能力を必要とするという意味では安価である。 この研究はML-LOOと呼ばれる最近発表されたテクニックに言及している。 我々は,ML-LOO の画素残高化アプローチにより,高コストの画素を置き換える。 我々は、このタスクに対する異なるセグメンテーションアルゴリズムの効率を評価し比較する。 その結果,検出精度の限界低下によりペナル化しても,効率が大きく向上する可能性が示唆された。

Recently published attacks against deep neural networks (DNNs) have stressed the importance of methodologies and tools to assess the security risks of using this technology in critical systems. Efficient techniques for detecting adversarial machine learning helps establishing trust and boost the adoption of deep learning in sensitive and security systems. In this paper, we propose a new technique for defending deep neural network classifiers, and convolutional ones in particular. Our defense is cheap in the sense that it requires less computation power despite a small cost to pay in terms of detection accuracy. The work refers to a recently published technique called ML-LOO. We replace the costly pixel by pixel leave-one-out approach of ML-LOO by adopting coarse-grained leave-one-out. We evaluate and compare the efficiency of different segmentation algorithms for this task. Our results show that a large gain in efficiency is possible, even though penalized by a marginal decrease in detection accuracy.
翻訳日:2021-09-02 02:18:29 公開日:2021-08-31
# (参考訳) 翻訳ヒンディー語とマラヤラム語の言語間テキスト分類 [全文訳有]

Cross-Lingual Text Classification of Transliterated Hindi and Malayalam ( http://arxiv.org/abs/2108.13620v1 )

ライセンス: CC BY 4.0
Jitin Krishnan, Antonios Anastasopoulos, Hemant Purohit, Huzefa Rangwala(参考訳) ソーシャルメディアでは文字化は非常に一般的であるが、翻訳されたテキストは様々なNLPタスクのための現代のニューラルモデルによって適切に扱われていない。 In this work, we combine data augmentation approaches with a Teacher-Student training scheme to address this issue in a cross-lingual transfer setting for fine-tuning state-of-the-art pre-trained multilingual language models such as mBERT and XLM-R. We evaluate our method on transliterated Hindi and Malayalam, also introducing new datasets for benchmarking on real-world scenarios: one on sentiment classification in transliterated Malayalam, and another on crisis tweet classification in transliterated Hindi and Malayalam (related to the 2013 North India and 2018 Kerala floods). その結果,MBERTでは5.6%,XLM-Rでは4.7%,F1では5.7%であった。

Transliteration is very common on social media, but transliterated text is not adequately handled by modern neural models for various NLP tasks. In this work, we combine data augmentation approaches with a Teacher-Student training scheme to address this issue in a cross-lingual transfer setting for fine-tuning state-of-the-art pre-trained multilingual language models such as mBERT and XLM-R. We evaluate our method on transliterated Hindi and Malayalam, also introducing new datasets for benchmarking on real-world scenarios: one on sentiment classification in transliterated Malayalam, and another on crisis tweet classification in transliterated Hindi and Malayalam (related to the 2013 North India and 2018 Kerala floods). Our method yielded an average improvement of +5.6% on mBERT and +4.7% on XLM-R in F1 scores over their strong baselines.
翻訳日:2021-09-02 02:09:57 公開日:2021-08-31
# (参考訳) 畳み込みスパイクニューラルネットワークにおけるスパイク時間変位に基づく誤差逆伝播 [全文訳有]

Spike time displacement based error backpropagation in convolutional spiking neural networks ( http://arxiv.org/abs/2108.13621v1 )

ライセンス: CC BY 4.0
Maryam Mirsadeghi, Majid Shalchian, Saeed Reza Kheradpisheh, Timoth\'ee Masquelier(参考訳) 我々は最近,シングルスパイクに基づく時間符号化による多層スパイクニューラルネットワーク(snns)の学習のために,逆回帰勾配計算を回避したstydi-bpアルゴリズムを提案した。 このアルゴリズムは、膜電位に対するスパイク遅延の微分を計算するために線形近似を用いており、神経処理の計算コストと複雑さを低減するために、断片的に線形なシナプス電位を持つスパイクニューロンを用いる。 本稿では,STiDi-BPアルゴリズムを拡張し,より深く,畳み込み型アーキテクチャに応用する。 MNISTとFashion-MNISTの2つのベンチマークに基づく画像分類タスクの評価結果は、それぞれ99.2%と92.8%の精度で、このアルゴリズムが深層SNNに適用されたことを確認した。 もうひとつの問題は、メモリストレージの削減と計算コストの削減です。 そこで我々は,後進パスで更新される実値重みと,フィードフォワードプロセスで使用される符号,バイナリ重みの2つの重みを持つ畳み込みSNN(CSNN)を考える。 我々は,MNIST と Fashion-MNIST の2つのデータセット上でバイナリCSNNを評価し,実数値の重み(それぞれ約0.6% と$0.8% のドロップ)に対して無視できる精度で許容できる性能を得た。

We recently proposed the STiDi-BP algorithm, which avoids backward recursive gradient computation, for training multi-layer spiking neural networks (SNNs) with single-spike-based temporal coding. The algorithm employs a linear approximation to compute the derivative of the spike latency with respect to the membrane potential and it uses spiking neurons with piecewise linear postsynaptic potential to reduce the computational cost and the complexity of neural processing. In this paper, we extend the STiDi-BP algorithm to employ it in deeper and convolutional architectures. The evaluation results on the image classification task based on two popular benchmarks, MNIST and Fashion-MNIST datasets with the accuracies of respectively 99.2% and 92.8%, confirm that this algorithm has been applicable in deep SNNs. Another issue we consider is the reduction of memory storage and computational cost. To do so, we consider a convolutional SNN (CSNN) with two sets of weights: real-valued weights that are updated in the backward pass and their signs, binary weights, that are employed in the feedforward process. We evaluate the binary CSNN on two datasets of MNIST and Fashion-MNIST and obtain acceptable performance with a negligible accuracy drop with respect to real-valued weights (about $0.6%$ and $0.8%$ drops, respectively).
翻訳日:2021-09-02 01:54:17 公開日:2021-08-31
# (参考訳) 観測データから最適規範木を学習する

Learning Optimal Prescriptive Trees from Observational Data ( http://arxiv.org/abs/2108.13628v1 )

ライセンス: CC BY 4.0
Nathanael Jo, Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos(参考訳) 観察データから適度な深さの最適述語木(即ち、二分木の形にパーソナライズされた処理割当方針)を学習する問題を考える。 この問題は、公衆衛生やパーソナライズされた医療など、多くの社会的に重要な領域で発生し、ランダムな試行ではなく、パッシブなデータの収集を通じて、デプロイメントで収集されたデータに基づいて、解釈可能でデータ駆動の介入を求める。 混合整数最適化(MIO)技術を用いて最適規範木を学習する手法を提案する。 本手法は温和な条件下では, 過去のデータサンプルの数が無限大になる傾向にあるため, 最適外処理割り当てポリシーに収束するという意味で, 漸近的に正確であることを示す。 これは、データをランダムにするか、木に厳密な仮定を課す必要があるトピックに関する既存の文献とは別物になります。 合成データと実データの両方について広範な計算実験を行った結果,本手法の漸近的保証が有限サンプルにおいても有意な性能改善をもたらすことを実証した。

We consider the problem of learning an optimal prescriptive tree (i.e., a personalized treatment assignment policy in the form of a binary tree) of moderate depth, from observational data. This problem arises in numerous socially important domains such as public health and personalized medicine, where interpretable and data-driven interventions are sought based on data gathered in deployment, through passive collection of data, rather than from randomized trials. We propose a method for learning optimal prescriptive trees using mixed-integer optimization (MIO) technology. We show that under mild conditions our method is asymptotically exact in the sense that it converges to an optimal out-of-sample treatment assignment policy as the number of historical data samples tends to infinity. This sets us apart from existing literature on the topic which either requires data to be randomized or imposes stringent assumptions on the trees. Based on extensive computational experiments on both synthetic and real data, we demonstrate that our asymptotic guarantees translate to significant out-of-sample performance improvements even in finite samples.
翻訳日:2021-09-02 01:32:19 公開日:2021-08-31
# (参考訳) SimulLR: Atention-Guided Adaptive Memory 付き同時リップリードトランスデューサ [全文訳有]

SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory ( http://arxiv.org/abs/2108.13630v1 )

ライセンス: CC BY 4.0
Zhijie Lin, Zhou Zhao, Haoyuan Li, Jinglin Liu, Meng Zhang, Xingshan Zeng, Xiaofei He(参考訳) 音声ストリームに頼らずに唇の動きの動画に基づいて音声文を認識することを目的とした唇読解は,多くのシナリオでその応用が注目されている。 口唇の読解を探求する先行研究は有意義な成果を得たが、それらはすべて、全映像へのアクセスを必要とする予測が生成される非同質な方法で訓練されている。 To breakthrough this constraint, we study the task of simultaneous lip reading and devise SimulLR, a simultaneous lip Reading transducer with attention-guided adaptive memory from three aspects: (1) To address the challenge of monotonic alignments while considering the syntactic structure of the generated sentences under simultaneous setting, we build a transducer-based model and design several effective training strategies including CTC pre-training, model warm-up and curriculum learning to promote the training of the lip reading transducer. 2) 同時エンコーダの時空間表現を改善するために, フレーム数の固定されたビデオセグメント内でフレーム間インタラクションを行うために, 3次元畳み込みと時間制限の自己アテンション層を構築した。 (3)履歴情報は,特に大容量ビデオデータの場合,リアルタイムシナリオの記憶のために常に制限される。 そこで我々は,注目誘導型適応メモリを考案し,履歴セグメントのセマンティック情報を整理し,許容する計算待ち時間で視覚表現を強化する。 実験の結果,SimulLR は最先端の非同時手法と比較して 9.10$\times$ の翻訳速度を達成し,提案手法の有効性を示す競合結果を得た。

Lip reading, aiming to recognize spoken sentences according to the given video of lip movements without relying on the audio stream, has attracted great interest due to its application in many scenarios. Although prior works that explore lip reading have obtained salient achievements, they are all trained in a non-simultaneous manner where the predictions are generated requiring access to the full video. To breakthrough this constraint, we study the task of simultaneous lip reading and devise SimulLR, a simultaneous lip Reading transducer with attention-guided adaptive memory from three aspects: (1) To address the challenge of monotonic alignments while considering the syntactic structure of the generated sentences under simultaneous setting, we build a transducer-based model and design several effective training strategies including CTC pre-training, model warm-up and curriculum learning to promote the training of the lip reading transducer. (2) To learn better spatio-temporal representations for simultaneous encoder, we construct a truncated 3D convolution and time-restricted self-attention layer to perform the frame-to-frame interaction within a video segment containing fixed number of frames. (3) The history information is always limited due to the storage in real-time scenarios, especially for massive video data. Therefore, we devise a novel attention-guided adaptive memory to organize semantic information of history segments and enhance the visual representations with acceptable computation-aware latency. The experiments show that the SimulLR achieves the translation speedup 9.10$\times$ compared with the state-of-the-art non-simultaneous methods, and also obtains competitive results, which indicates the effectiveness of our proposed methods.
翻訳日:2021-09-02 01:31:11 公開日:2021-08-31
# (参考訳) 解釈可能かつ一般化可能な方針としてプログラムを合成する学習

Learning to Synthesize Programs as Interpretable and Generalizable Policies ( http://arxiv.org/abs/2108.13643v1 )

ライセンス: CC BY 4.0
Dweep Trivedi, Jesse Zhang, Shao-Hua Sun, Joseph J. Lim(参考訳) 近年,深部強化学習(DRL)法は様々な領域のタスクにおいて顕著な性能を発揮している。 しかし、DRL法で生成されたニューラルネットワークポリシーは人間解釈可能ではなく、しばしば新しいシナリオに一般化するのが困難である。 これらの問題に対処するため、先行研究は一般化のためにより解釈可能で構造化されたプログラム的ポリシーの学習を探求する。 しかし、これらの作品は限定的な政策表現(例)を採用する。 決定木、状態機械、または事前定義されたプログラムテンプレート)、またはより強い監督を必要とする(例えば、)。 入出力状態ペアまたは専門家のデモンストレーション)。 我々は,プログラムの合成を学習するフレームワークを提案する。このフレームワークは,報酬信号のみから,柔軟かつ表現力に富んだ方法でタスクを解決する手順を詳述する。 要求されるエージェント動作をスクラッチから誘導するプログラムを構成する学習の難しさを軽減すべく,まず,様々な動作を教師なしの方法で連続的にパラメータ化するプログラム埋め込み空間を学習し,学習したプログラム埋め込み空間を検索し,与えられたタスクの返却を最大化するプログラムを生成する。 実験結果から,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLとプログラム合成ベースラインに優れ,解釈可能でより一般化可能なポリシを生成する。 また,提案する2段階学習方式の必要性を正当化し,プログラム組込み学習の様々な方法を分析する。

Recently, deep reinforcement learning (DRL) methods have achieved impressive performance on tasks in a variety of domains. However, neural network policies produced with DRL methods are not human-interpretable and often have difficulty generalizing to novel scenarios. To address these issues, prior works explore learning programmatic policies that are more interpretable and structured for generalization. Yet, these works either employ limited policy representations (e.g. decision trees, state machines, or predefined program templates) or require stronger supervision (e.g. input/output state pairs or expert demonstrations). We present a framework that instead learns to synthesize a program, which details the procedure to solve a task in a flexible and expressive manner, solely from reward signals. To alleviate the difficulty of learning to compose programs to induce the desired agent behavior from scratch, we propose to first learn a program embedding space that continuously parameterizes diverse behaviors in an unsupervised manner and then search over the learned program embedding space to yield a program that maximizes the return for a given task. Experimental results demonstrate that the proposed framework not only learns to reliably synthesize task-solving programs but also outperforms DRL and program synthesis baselines while producing interpretable and more generalizable policies. We also justify the necessity of the proposed two-stage learning scheme as well as analyze various methods for learning the program embedding.
翻訳日:2021-09-02 01:14:50 公開日:2021-08-31
# (参考訳) 多視点表現学習を用いたヘテロジニアスグラフニューラルネットワーク [全文訳有]

Heterogeneous Graph Neural Network with Multi-view Representation Learning ( http://arxiv.org/abs/2108.13650v1 )

ライセンス: CC BY 4.0
Zezhi Shao, Yongjun Xu, Wei Wei, Fei Wang, Zhao Zhang, Feida Zhu(参考訳) ヘテロジニアスグラフ埋め込みのためのグラフニューラルネットワークは、ヘテロジニアスグラフの異質性とセマンティクスを探索することにより、ノードを低次元空間に投影する。 しかしながら、既存のヘテロジニアスグラフ埋め込み手法のほとんどは、特定の意味の下で局所構造を不十分にモデル化するか、あるいはそれから情報を集約する際の不均一性を無視するかのどちらかである。 一方、複数の意味論からの表現は、汎用ノード埋め込みを得るために包括的に統合されていない。 そこで本研究では,多視点表現学習の考え方を導入することにより,多視点表現学習(mv-hetgnn)を備えたヘテロジニアスグラフニューラルネットワークを提案する。 提案モデルは, ノード特徴変換, ビュー固有エゴグラフ符号化, 自動多視点融合により, 包括的ノード表現を生成する複雑な構造情報と意味情報を完全に学習する。 3つの実世界の異種グラフデータセットに対する大規模な実験により、提案されたMV-HetGNNモデルは、ノード分類、ノードクラスタリング、リンク予測など、さまざまな下流タスクにおいて、最先端のGNNベースラインを一貫して上回ることを示した。

Graph neural networks for heterogeneous graph embedding is to project nodes into a low-dimensional space by exploring the heterogeneity and semantics of the heterogeneous graph. However, on the one hand, most of existing heterogeneous graph embedding methods either insufficiently model the local structure under specific semantic, or neglect the heterogeneity when aggregating information from it. On the other hand, representations from multiple semantics are not comprehensively integrated to obtain versatile node embeddings. To address the problem, we propose a Heterogeneous Graph Neural Network with Multi-View Representation Learning (named MV-HetGNN) for heterogeneous graph embedding by introducing the idea of multi-view representation learning. The proposed model consists of node feature transformation, view-specific ego graph encoding and auto multi-view fusion to thoroughly learn complex structural and semantic information for generating comprehensive node representations. Extensive experiments on three real-world heterogeneous graph datasets show that the proposed MV-HetGNN model consistently outperforms all the state-of-the-art GNN baselines in various downstream tasks, e.g., node classification, node clustering, and link prediction.
翻訳日:2021-09-02 01:13:32 公開日:2021-08-31
# (参考訳) 単語属性による授業の説明 [全文訳有]

Explaining Classes through Word Attribution ( http://arxiv.org/abs/2108.13653v1 )

ライセンス: CC BY 4.0
Samuel R\"onnqvist, Amanda Myntti, Aki-Juhani Kyr\"ol\"ainen, Sampo Pyysalo, Veronika Laippala, Filip Ginter(参考訳) 近年、深層学習モデルの個々の予測を説明するためのいくつかの手法が提案されているが、これらの予測をどのように集約するかについてはほとんど研究されていない。 そこで本研究では,テキスト分類における個々の例の説明を一般記述に集約することで,ディープラーニングモデルと統合グラディエント特徴属性技術を用いたクラス記述手法を提案する。 本稿では,xml-rモデルとオンライン・レジスタ・オブ・イングリッシュ (core) のコーパスを用いた web register (genre) 分類のアプローチを実証し,この手法が最小のクラスのみを特徴付ける有理かつ識別可能なキーワードを識別することを発見した。

In recent years, several methods have been proposed for explaining individual predictions of deep learning models, yet there has been little study of how to aggregate these predictions to explain how such models view classes as a whole in text classification tasks. In this work, we propose a method for explaining classes using deep learning models and the Integrated Gradients feature attribution technique by aggregating explanations of individual examples in text classification to general descriptions of the classes. We demonstrate the approach on Web register (genre) classification using the XML-R model and the Corpus of Online Registers of English (CORE), finding that the method identifies plausible and discriminative keywords characterizing all but the smallest class.
翻訳日:2021-09-02 00:49:18 公開日:2021-08-31
# (参考訳) 言語モデル記述のための離散化統合勾配 [全文訳有]

Discretized Integrated Gradients for Explaining Language Models ( http://arxiv.org/abs/2108.13654v1 )

ライセンス: CC BY 4.0
Soumya Sanyal, Xiang Ren(参考訳) 主観的帰属に基づく説明アルゴリズムとして,その望ましい説明公理と勾配計算の容易さから統合勾配 (ig) が広く採用されている。 入力データ空間の直線経路に沿って補間されたモデルの出力勾配を平均することで、特徴量を測定する。 しかし、このような直線補間点は、単語埋め込み空間の固有離散性のため、テキストデータの代表ではない。 このことは、補間点で計算された勾配の忠実さと、結果として生成された説明の質に疑問を呈する。 本稿では、非線形補間経路に沿った効果的な帰属を可能にする離散化統合勾配(DIG)を提案する。 埋め込み空間内の実際の単語に近接する補間点を生成し,より忠実な勾配計算を行う離散単語埋め込み空間に対する補間戦略を2つ開発する。 複数の感情分類データセットを用いた実験および人的評価により,DIGのIGに対する効果を示す。 我々は再現可能な研究を促進するためにDIGのソースコードを提供する。

As a prominent attribution-based explanation algorithm, Integrated Gradients (IG) is widely adopted due to its desirable explanation axioms and the ease of gradient computation. It measures feature importance by averaging the model's output gradient interpolated along a straight-line path in the input data space. However, such straight-line interpolated points are not representative of text data due to the inherent discreteness of the word embedding space. This questions the faithfulness of the gradients computed at the interpolated points and consequently, the quality of the generated explanations. Here we propose Discretized Integrated Gradients (DIG), which allows effective attribution along non-linear interpolation paths. We develop two interpolation strategies for the discrete word embedding space that generates interpolation points that lie close to actual words in the embedding space, yielding more faithful gradient computation. We demonstrate the effectiveness of DIG over IG through experimental and human evaluations on multiple sentiment classification datasets. We provide the source code of DIG to encourage reproducible research.
翻訳日:2021-09-02 00:44:16 公開日:2021-08-31
# (参考訳) 初対人視力は物体追跡にかかわるか?

Is First Person Vision Challenging for Object Tracking? ( http://arxiv.org/abs/2108.13665v1 )

ライセンス: CC BY 4.0
Matteo Dunnhofer, Antonino Furnari, Giovanni Maria Farinella, Christian Micheloni(参考訳) 人間と物体の相互作用を理解することは、第一人物ビジョン(FPV)の基本である。 カメラ装着者が操作する物体を追跡する追跡アルゴリズムは、そのような相互作用を効果的にモデル化するための有用な手がかりを提供することができる。 コンピュータビジョンの文献で利用可能なビジュアルトラッキングソリューションは、様々なターゲットオブジェクトやトラッキングシナリオのパフォーマンスを過去数年間で大幅に改善した。 しかし、これまでFPVアプリケーションでトラッカーを活用しようと試みてきたが、この領域における最先端トラッカーの性能の方法論的分析はいまだに欠けている。 本稿では,FPVにおける物体追跡に関する最初の体系的研究によって,そのギャップを埋める。 本研究は,近年の視覚トラッカーとベースライン型FPVトラッカーの性能を,異なる側面と新たな性能指標を考慮して広範囲に解析する。 これは150の密注釈付きビデオシーケンスからなる新しいベンチマークデータセットであるtrek-150によって実現されている。 その結果、fpvにおけるオブジェクト追跡は困難であり、追跡がfpvタスクに利益をもたらすよう、この問題により多くの研究努力を割くべきであることが示唆された。

Understanding human-object interactions is fundamental in First Person Vision (FPV). Tracking algorithms which follow the objects manipulated by the camera wearer can provide useful cues to effectively model such interactions. Visual tracking solutions available in the computer vision literature have significantly improved their performance in the last years for a large variety of target objects and tracking scenarios. However, despite a few previous attempts to exploit trackers in FPV applications, a methodical analysis of the performance of state-of-the-art trackers in this domain is still missing. In this paper, we fill the gap by presenting the first systematic study of object tracking in FPV. Our study extensively analyses the performance of recent visual trackers and baseline FPV trackers with respect to different aspects and considering a new performance measure. This is achieved through TREK-150, a novel benchmark dataset composed of 150 densely annotated video sequences. Our results show that object tracking in FPV is challenging, which suggests that more research efforts should be devoted to this problem so that tracking could benefit FPV tasks.
翻訳日:2021-09-02 00:25:58 公開日:2021-08-31
# (参考訳) 医療SANSフォーマー:電子医療記録に注意しない自己監督型トランスフォーマーの訓練 [全文訳有]

Medical SANSformers: Training self-supervised transformers without attention for Electronic Medical Records ( http://arxiv.org/abs/2108.13672v1 )

ライセンス: CC BY 4.0
Yogesh Kumar, Alexander Ilin, Henri Salo, Sangita Kulathinal, Maarit K. Leinonen, Pekka Marttinen(参考訳) 我々は,今後の医療利用のための資源配分を改善するために,患者に対する医療利用の予測という課題に取り組むために,深い逐次モデルを活用する。 具体的には、人口の小さな部分集合における結果分布が一般集団のそれとかなり異なるような、 \textit{divergent subgroups} の問題を研究する。 発散したサブグループのための特殊モデルを構築する従来のアプローチは、サブグループのサイズが非常に小さい場合(例えば稀な疾患)に問題となる。 この課題に対処するため,我々はまず,電子カルテにおける臨床コードモデリングに適した帰納バイアスを付与した,注意を払わないシーケンシャルモデルsansformersを開発した。 次に、タスク固有のセルフスーパービジョンの目標を設計し、その効果、特に不足データ設定において、分岐したサブグループの下流タスクを微調整する前に、健康レジストリ全体(100万人近い患者を含む)で各モデルを事前訓練することで、その効果を実証する。 2つのデータソースと,医療利用予測を支援するマルチタスク学習目標を用いて,新たなsansformerアーキテクチャとlstmおよびtransformerモデルを比較した。 経験的に、無注意SANSformerモデルは実験全体で一貫して良好に動作し、ほとんどの場合、少なくとも$\sim 10$\%のベースラインを上回っている。 さらに、セルフ教師付きプレトレーニングは、病院訪問数を予測する際に、50$\%以上(そして800$\%以上)をR^2$スコアで、パフォーマンスを大幅に向上させる。

We leverage deep sequential models to tackle the problem of predicting healthcare utilization for patients, which could help governments to better allocate resources for future healthcare use. Specifically, we study the problem of \textit{divergent subgroups}, wherein the outcome distribution in a smaller subset of the population considerably deviates from that of the general population. The traditional approach for building specialized models for divergent subgroups could be problematic if the size of the subgroup is very small (for example, rare diseases). To address this challenge, we first develop a novel attention-free sequential model, SANSformers, instilled with inductive biases suited for modeling clinical codes in electronic medical records. We then design a task-specific self-supervision objective and demonstrate its effectiveness, particularly in scarce data settings, by pre-training each model on the entire health registry (with close to one million patients) before fine-tuning for downstream tasks on the divergent subgroups. We compare the novel SANSformer architecture with the LSTM and Transformer models using two data sources and a multi-task learning objective that aids healthcare utilization prediction. Empirically, the attention-free SANSformer models perform consistently well across experiments, outperforming the baselines in most cases by at least $\sim 10$\%. Furthermore, the self-supervised pre-training boosts performance significantly throughout, for example by over $\sim 50$\% (and as high as $800$\%) on $R^2$ score when predicting the number of hospital visits.
翻訳日:2021-09-02 00:25:02 公開日:2021-08-31
# (参考訳) オンライン3Dビンパッキングのための実用性のある政策の学習 [全文訳有]

Learning Practically Feasible Policies for Online 3D Bin Packing ( http://arxiv.org/abs/2108.13680v1 )

ライセンス: CC BY 4.0
Hang Zhao, Chenyang Zhu, Xin Xu, Hui Huang, Kai Xu(参考訳) Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。 この問題では、全シーケンス情報を通知することなく、アイテムをエージェントに配信する。 エージェントは、これらのアイテムを到着順序を変更することなく、ターゲットビンに直接安定して詰め込む必要があり、追加調整は許可されない。 オンライン3D-BPP は Markov Decision Process (MDP) として自然に定式化できる。 我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。 実用可能なパッケージングポリシーを学習するために,我々は3つの重要な設計を提案する。 まず,新しい積み重ね木に基づく荷積み安定性のオンライン解析を提案する。 計算複雑性を$O(N^2)$から$O(N \log N)$に下げつつ高い解析精度を達成し、特にRLトレーニングに適している。 第2に,高分解能空間離散化と高い充填精度を実現する,配置次元の異なるパッキングポリシー学習を提案する。 第3に,ロボットアームの移動計画において,物体を遠方から近方へ配置するように指示する報酬関数を導入し,衝突回避を簡略化する。 さらに、いくつかの重要な実装問題について包括的な議論を行う。 この評価により,我々の学習方針は最先端の手法を著しく上回り,現実の応用に実用的であることが示された。

We tackle the Online 3D Bin Packing Problem, a challenging yet practically useful variant of the classical Bin Packing Problem. In this problem, the items are delivered to the agent without informing the full sequence information. Agent must directly pack these items into the target bin stably without changing their arrival order, and no further adjustment is permitted. Online 3D-BPP can be naturally formulated as Markov Decision Process (MDP). We adopt deep reinforcement learning, in particular, the on-policy actor-critic framework, to solve this MDP with constrained action space. To learn a practically feasible packing policy, we propose three critical designs. First, we propose an online analysis of packing stability based on a novel stacking tree. It attains a high analysis accuracy while reducing the computational complexity from $O(N^2)$ to $O(N \log N)$, making it especially suited for RL training. Second, we propose a decoupled packing policy learning for different dimensions of placement which enables high-resolution spatial discretization and hence high packing precision. Third, we introduce a reward function that dictates the robot to place items in a far-to-near order and therefore simplifies the collision avoidance in movement planning of the robotic arm. Furthermore, we provide a comprehensive discussion on several key implemental issues. The extensive evaluation demonstrates that our learned policy outperforms the state-of-the-art methods significantly and is practically usable for real-world applications.
翻訳日:2021-09-01 23:51:45 公開日:2021-08-31
# (参考訳) Reward-Driven Knowledge Selection を用いた知識群対話 [全文訳有]

Knowledge-Grounded Dialogue with Reward-Driven Knowledge Selection ( http://arxiv.org/abs/2108.13686v1 )

ライセンス: CC BY-SA 4.0
Shilei Liu, Xiaofeng Zhao, Bochao Li, Feiliang Ren(参考訳) 知識基底対話は、会話コンテキストと外部知識の収集の両方に基づいて、流動的で情報的な応答を生成するタスクであり、知識の選択が重要な役割を担い、より多くの研究の関心を惹きつける。 しかし、既存のモデルの多くは1つの知識のみを選択するか、応答生成にすべての知識を使用する。 前者は捨てられた知識で貴重な情報を失うかもしれないし、後者は大きなノイズをもたらすかもしれない。 同時に、多くのアプローチでは、根底的な知識を示す知識ラベルで知識セレクタを訓練する必要があるが、これらのラベルは入手が困難であり、多くの手動アノテーションを必要とする。 これらの課題に触発されて,強化学習に基づく対話応答生成モデルであるKnoformerを提案し,知識プールから1つ以上の関連知識を自動的に選択し,学習中に知識ラベルを必要としない。 Knoformerは2つの知識誘導型会話データセットで評価され、最先端のパフォーマンスを達成する。

Knowledge-grounded dialogue is a task of generating a fluent and informative response based on both conversation context and a collection of external knowledge, in which knowledge selection plays an important role and attracts more and more research interest. However, most existing models either select only one knowledge or use all knowledge for responses generation. The former may lose valuable information in discarded knowledge, while the latter may bring a lot of noise. At the same time, many approaches need to train the knowledge selector with knowledge labels that indicate ground-truth knowledge, but these labels are difficult to obtain and require a large number of manual annotations. Motivated by these issues, we propose Knoformer, a dialogue response generation model based on reinforcement learning, which can automatically select one or more related knowledge from the knowledge pool and does not need knowledge labels during training. Knoformer is evaluated on two knowledge-guided conversation datasets, and achieves state-of-the-art performance.
翻訳日:2021-09-01 23:30:13 公開日:2021-08-31
# (参考訳) 超解像に対する注意に基づくマルチ参照学習 [全文訳有]

Attention-based Multi-Reference Learning for Image Super-Resolution ( http://arxiv.org/abs/2108.13697v1 )

ライセンス: CC BY 4.0
Marco Pesavento, Marco Volino and Adrian Hilton(参考訳) 本稿では,空間コヒーレンスを維持しつつ,複数の参照画像からスーパーレゾリューション出力へ最も類似したテクスチャを適応的に転送する,アテンションベースのマルチレゾリューション・スーパーレゾリューション・ネットワーク(AMRSR)を提案する。 マルチリファレンス画像とアテンションベースサンプリングを用いることで、複数のベンチマークデータセットに対する最先端の参照超解像アプローチよりも性能が大幅に向上することを示した。 近年,高分解能基準画像からの付加情報を提供することにより,不適切な画像超解像問題を解決するための参照超解像手法が提案されている。 マルチリファレンススーパーレゾリューションは、メモリ効率を維持しながら固有の情報不足を克服するために、より多様な画像機能プールを提供することによって、このアプローチを拡張します。 低解像度画像特徴と複数の参照画像との類似性を知覚損失に基づいて学習するために,新しい階層的注意に基づくサンプリング手法を導入した。 アブレーションは、全体的なパフォーマンスにマルチリファレンスと階層的注意に基づくサンプリングの両方が寄与していることを示している。 基準画像が目標画像から著しくずれた場合でも,知覚的,定量的な地下構造評価により,性能が著しく向上した。 プロジェクトのWebサイトはhttps://marcopesaven to.github.io/AMRSR/にある。

This paper proposes a novel Attention-based Multi-Reference Super-resolution network (AMRSR) that, given a low-resolution image, learns to adaptively transfer the most similar texture from multiple reference images to the super-resolution output whilst maintaining spatial coherence. The use of multiple reference images together with attention-based sampling is demonstrated to achieve significantly improved performance over state-of-the-art reference super-resolution approaches on multiple benchmark datasets. Reference super-resolution approaches have recently been proposed to overcome the ill-posed problem of image super-resolution by providing additional information from a high-resolution reference image. Multi-reference super-resolution extends this approach by providing a more diverse pool of image features to overcome the inherent information deficit whilst maintaining memory efficiency. A novel hierarchical attention-based sampling approach is introduced to learn the similarity between low-resolution image features and multiple reference images based on a perceptual loss. Ablation demonstrates the contribution of both multi-reference and hierarchical attention-based sampling to overall performance. Perceptual and quantitative ground-truth evaluation demonstrates significant improvement in performance even when the reference images deviate significantly from the target image. The project website can be found at https://marcopesaven to.github.io/AMRSR/
翻訳日:2021-09-01 23:20:15 公開日:2021-08-31
# (参考訳) TNNT: 名前付きエンティティ認識ツールキット [全文訳有]

TNNT: The Named Entity Recognition Toolkit ( http://arxiv.org/abs/2108.13700v1 )

ライセンス: CC BY 4.0
Sandaru Seneviratne and Sergio J. Rodr\'iguez M\'endez and Xuecheng Zhang and Pouya G. Omran and Kerry Taylor and Armin Haller(参考訳) さまざまな名前付きエンティティ認識(ner)モデルと異なるソースドキュメントフォーマットでエンコードされた非構造化情報があるため、テキストから分類された名前付きエンティティを抽出することは複雑なタスクである。 文書を処理してテキストを抽出し、タスクに適したNERモデルを特定し、統計情報を取得することは、データ分析において重要な情報決定である。 本稿では、NLPツールとNERモデルを用いて、ソース文書に符号化された非構造化情報から分類されたエンティティの抽出を自動化するツールキットであるTNNTを提案する。 TNNTは21の異なるNERモデルを知識グラフ構築パイプライン(KGCP)の一部として統合し、文書セットを入力として取り、定義された設定に基づいて処理し、選択したNERモデルのブロックを適用して結果を出力する。 このツールキットは、抽出されたエンティティの要約を統合して全ての結果を生成し、強化されたデータ解析によりKGCPをサポートし、さらにNLPタスクを支援する。

Extraction of categorised named entities from text is a complex task given the availability of a variety of Named Entity Recognition (NER) models and the unstructured information encoded in different source document formats. Processing the documents to extract text, identifying suitable NER models for a task, and obtaining statistical information is important in data analysis to make informed decisions. This paper presents TNNT, a toolkit that automates the extraction of categorised named entities from unstructured information encoded in source documents, using diverse state-of-the-art Natural Language Processing (NLP) tools and NER models. TNNT integrates 21 different NER models as part of a Knowledge Graph Construction Pipeline (KGCP) that takes a document set as input and processes it based on the defined settings, applying the selected blocks of NER models to output the results. The toolkit generates all results with an integrated summary of the extracted entities, enabling enhanced data analysis to support the KGCP, and also, to aid further NLP tasks.
翻訳日:2021-09-01 23:04:56 公開日:2021-08-31
# (参考訳) オフポリシー評価のロバスト性評価 [全文訳有]

Evaluating the Robustness of Off-Policy Evaluation ( http://arxiv.org/abs/2108.13703v1 )

ライセンス: CC BY 4.0
Yuta Saito, Takuma Udagawa, Haruka Kiyohara, Kazuki Mogi, Yusuke Narita, and Kei Tateno(参考訳) off-policy evaluation(ope、オフライン評価)は、オフラインログデータのみを利用する仮説的なポリシーのパフォーマンスを評価する。 オンラインインタラクションが高利息と、精密医療やレコメンダシステムのような高価な設定を伴うアプリケーションで特に有用である。 多くのOPE推定器が提案され、そのうちのいくつかは調整すべきハイパーパラメータを持つため、実践者が特定の用途のためにOPE推定器を選択して調整することが課題となっている。 残念なことに、研究論文で報告された結果から信頼できる推定器を特定することは、現在の実験手順が、狭い超パラメータと評価ポリシーで推定器の性能を評価し比較するため、しばしば困難である。 したがって,どの推定器が安全で信頼性が高いかを知ることは困難である。 本研究では,OPE推定器の高パラメータ変化に対する頑健性および/または評価ポリシーを解釈可能な方法で評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。 そして、IEOEの手順を用いて、OPEの大規模公開実世界のデータセットであるOpen Bandit Dataset上で、様々な既存推定器の広範な評価を行う。 我々は,超パラメータ選択に対する推定器のロバスト性を評価し,安全でない推定器の使用を回避できることを実証する。 最後に、実世界のeコマースプラットフォームデータにIEOEを適用し、実際にプロトコルを使う方法を実証する。

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive setting such as precision medicine and recommender systems. Since many OPE estimators have been proposed and some of them have hyperparameters to be tuned, there is an emerging challenge for practitioners to select and tune OPE estimators for their specific application. Unfortunately, identifying a reliable estimator from results reported in research papers is often difficult because the current experimental procedure evaluates and compares the estimators' performance on a narrow set of hyperparameters and evaluation policies. Therefore, it is difficult to know which estimator is safe and reliable to use. In this work, we develop Interpretable Evaluation for Offline Evaluation (IEOE), an experimental procedure to evaluate OPE estimators' robustness to changes in hyperparameters and/or evaluation policies in an interpretable manner. Then, using the IEOE procedure, we perform extensive evaluation of a wide variety of existing estimators on Open Bandit Dataset, a large-scale public real-world dataset for OPE. We demonstrate that our procedure can evaluate the estimators' robustness to the hyperparamter choice, helping us avoid using unsafe estimators. Finally, we apply IEOE to real-world e-commerce platform data and demonstrate how to use our protocol in practice.
翻訳日:2021-09-01 22:59:39 公開日:2021-08-31
# (参考訳) エッジTPUの深層学習 [全文訳有]

Deep Learning on Edge TPUs ( http://arxiv.org/abs/2108.13732v1 )

ライセンス: CC BY 4.0
Andreas M Kist(参考訳) エッジでのコンピューティングはリモート設定において重要であるが、従来のハードウェアはディープニューラルネットワークの利用に最適化されていない。 google edge tpuは、コスト、電力、速度効率が良く、プロトタイピングや生産目的にも利用できる、新たなハードウェアアクセラレータだ。 ここでは、Edge TPUプラットフォーム、Edge TPUを使用して達成されたタスク、Edge TPUハードウェアにモデルをデプロイするために必要なステップについてレビューする。 Edge TPUは一般的なコンピュータビジョンタスクに対処するだけでなく、特にEdge TPUにモデル全体をデプロイできる場合、他のハードウェアアクセラレータを上回ります。 Edge TPUをカメラに組み込むことで、一次データのシームレスな分析が可能になる。 要約すると、Edge TPUは成熟したシステムであり、そのユーザビリティを複数のタスクで証明している。

Computing at the edge is important in remote settings, however, conventional hardware is not optimized for utilizing deep neural networks. The Google Edge TPU is an emerging hardware accelerator that is cost, power and speed efficient, and is available for prototyping and production purposes. Here, I review the Edge TPU platform, the tasks that have been accomplished using the Edge TPU, and which steps are necessary to deploy a model to the Edge TPU hardware. The Edge TPU is not only capable of tackling common computer vision tasks, but also surpasses other hardware accelerators, especially when the entire model can be deployed to the Edge TPU. Co-embedding the Edge TPU in cameras allows a seamless analysis of primary data. In summary, the Edge TPU is a maturing system that has proven its usability across multiple tasks.
翻訳日:2021-09-01 22:36:47 公開日:2021-08-31
# (参考訳) 4次元人体性能のための超解像伝達 [全文訳有]

Super-Resolution Appearance Transfer for 4D Human Performances ( http://arxiv.org/abs/2108.13739v1 )

ライセンス: CC BY 4.0
Marco Pesavento, Marco Volino and Adrian Hilton(参考訳) マルチビュービデオからの4次元再構成における一般的な問題は、カメラ解像度とキャプチャボリュームの両方に依存する、キャプチャされた動的テクスチャの外観の品質である。 通常、ダイナミックなパフォーマンス(>50m^3$)のボリュームを捉えるためにカメラをフレーム化する必要があるため、視野の10%をわずかに占めるだけで済む。 超高精細4kビデオ取得であっても、この結果、標準定義0.5kビデオ解像度で人物をサンプリングし、低画質のレンダリングを実現する。 本稿では,デジタル静止画カメラ(8kドル)を用いた静止高解像度撮影装置からの超高精細な外見転送により,小容量の人物を捕獲する手法を提案する。 超解像動的テクスチャを生成するため、高分解能静的キャプチャーからダイナミックビデオパフォーマンスキャプチャーへ超解像的外観伝達を行うパイプラインを提案する。 これは、異なるカメラシステム間の色マッピングと学習モデルを用いた動的テクスチャマップ超解像の2つの主要な問題に対処する。 超高分解能な動的テクスチャの外観を持つ4Dパフォーマンスキャプチャのレンダリングにおいて、比較評価は質的かつ定量的な改善を示す。 提案手法は,映像の出現ダイナミクスを維持しつつ,静的キャプチャの高分解能詳細を再現する。

A common problem in the 4D reconstruction of people from multi-view video is the quality of the captured dynamic texture appearance which depends on both the camera resolution and capture volume. Typically the requirement to frame cameras to capture the volume of a dynamic performance ($>50m^3$) results in the person occupying only a small proportion $<$ 10% of the field of view. Even with ultra high-definition 4k video acquisition this results in sampling the person at less-than standard definition 0.5k video resolution resulting in low-quality rendering. In this paper we propose a solution to this problem through super-resolution appearance transfer from a static high-resolution appearance capture rig using digital stills cameras ($> 8k$) to capture the person in a small volume ($<8m^3$). A pipeline is proposed for super-resolution appearance transfer from high-resolution static capture to dynamic video performance capture to produce super-resolution dynamic textures. This addresses two key problems: colour mapping between different camera systems; and dynamic texture map super-resolution using a learnt model. Comparative evaluation demonstrates a significant qualitative and quantitative improvement in rendering the 4D performance capture with super-resolution dynamic texture appearance. The proposed approach reproduces the high-resolution detail of the static capture whilst maintaining the appearance dynamics of the captured video.
翻訳日:2021-09-01 22:23:47 公開日:2021-08-31
# (参考訳) ホーン非閉クラスとその多項式性

The Horn Non-Clausal Class and its Polynomiality ( http://arxiv.org/abs/2108.13744v1 )

ライセンス: CC BY 4.0
Gonzalo E. Imaz(参考訳) 命題的非閉包式(nc)の表現性は閉包式よりも指数関数的に豊かである。 しかし、クローズ効率は非クローズ効率を上回っている。 実際、後者の大きな弱点は、ホーンクローサルの公式は、ホーンアルゴリズムとともに、クローサル推論の高効率化に不可欠であるが、非クラウサル形式のホーン様公式は提案されていないことである。 このような弱点を克服するため、Horn Non-Clausal (Horn-NC) の公式のハイブリッドクラス $\mathbb{H_{NC}}$ を NC 形式に適切に持ち上げ、将来のHorn-NC アルゴリズムとともに、Horn クラスが clausal efficiency を増大するのと同じように非クラス効率を向上すると主張する。 i) $\mathbb{H_{NC}}$; (ii) 構文的に$\mathbb{H_{NC}}$がホーン類を仮定することを示すが、意味的には両方のクラスは同値であり、(iii)$\mathbb{H_{NC}}$に属する非クラス式を特徴づける。 第三に、Non-Clausal Unit-Resolution calculusを$UR_{NC}$と定義し、多項式時間で$\mathbb{H_{NC}}$の満足度をチェックする。 この事実は、我々の知る限り、$\mathbb{H_{NC}}$ NC推論において初めて特徴づけられる多項式類となる。 最後に、$\mathbb{H_{NC}}$ が線型認識可能であることを証明し、ホーン類よりも厳密かつ指数的にリッチであることも証明する。 私たちはそれをnc自動推論で議論します。 満足度解決、定理証明、論理プログラミング等は、$\mathbb{H_{NC}}$と$UR_{NC}$から直接利益を得ることができ、証明された性質の副産物として、$\mathbb{H_{NC}}$はホーン関数や含意系を解析するための新しい代替品として現れる。

The expressiveness of propositional non-clausal (NC) formulas is exponentially richer than that of clausal formulas. Yet, clausal efficiency outperforms non-clausal one. Indeed, a major weakness of the latter is that, while Horn clausal formulas, along with Horn algorithms, are crucial for the high efficiency of clausal reasoning, no Horn-like formulas in non-clausal form had been proposed. To overcome such weakness, we define the hybrid class $\mathbb{H_{NC}}$ of Horn Non-Clausal (Horn-NC) formulas, by adequately lifting the Horn pattern to NC form, and argue that $\mathbb{H_{NC}}$, along with future Horn-NC algorithms, shall increase non-clausal efficiency just as the Horn class has increased clausal efficiency. Secondly, we: (i) give the compact, inductive definition of $\mathbb{H_{NC}}$; (ii) prove that syntactically $\mathbb{H_{NC}}$ subsumes the Horn class but semantically both classes are equivalent, and (iii) characterize the non-clausal formulas belonging to $\mathbb{H_{NC}}$. Thirdly, we define the Non-Clausal Unit-Resolution calculus, $UR_{NC}$, and prove that it checks the satisfiability of $\mathbb{H_{NC}}$ in polynomial time. This fact, to our knowledge, makes $\mathbb{H_{NC}}$ the first characterized polynomial class in NC reasoning. Finally, we prove that $\mathbb{H_{NC}}$ is linearly recognizable, and also that it is both strictly succincter and exponentially richer than the Horn class. We discuss that in NC automated reasoning, e.g. satisfiability solving, theorem proving, logic programming, etc., can directly benefit from $\mathbb{H_{NC}}$ and $UR_{NC}$ and that, as a by-product of its proved properties, $\mathbb{H_{NC}}$ arises as a new alternative to analyze Horn functions and implication systems.
翻訳日:2021-09-01 22:08:27 公開日:2021-08-31
# (参考訳) 部分的情報分解による絡み合い解析 [全文訳有]

Disentanglement Analysis with Partial Information Decomposition ( http://arxiv.org/abs/2108.13753v1 )

ライセンス: CC BY 4.0
Seiya Tokui, Issei Sato(参考訳) それらの外観を協調的に変換する複数の変動因子から生成されるデータが与えられたとき、不連続表現は、個々の生成因子を個別にキャプチャする複数の確率変数にデータをマッピングすることでプロセスを反転することを目的としている。 概念は直感的だが抽象的であるため、異なるモデル間の異方性表現の品質を評価し比較するために、異方性メトリクスで定量化する必要がある。 現在の異方性メトリクスは、各生成因子によって条件づけられた各変数の濃度、例えば絶対偏差、分散、エントロピーを、任意にその限界分布の濃度によって相殺し、異なる変数間で比較するために設計されている。 表現が2つ以上の変数で構成されている場合、これらのメトリクスはペアの相互作用だけを測定するため、それらの間の相互作用を検出することができない。 本研究では,2種類以上の変数間の情報共有を評価するために部分情報分解フレームワークを使用し,その表現が生成要因を明瞭に,冗長に,協調的にどのように符号化するかを解析する,新しい非絡み合い指標を含むフレームワークを構築する。 我々は,各指標がますます絡み合う表現をどのように評価するかを評価するための実験プロトコルを確立し,提案手法が絡み合いに正しく反応する人工的かつ現実的な設定を通して確認する。 本研究の結果は,情報理論的解答の促進と,メトリクスのさらなる発展と学習手法の確立に繋がると考えられる。

Given data generated from multiple factors of variation that cooperatively transform their appearance, disentangled representations aim at reversing the process by mapping data to multiple random variables that individually capture distinct generative factors. As the concept is intuitive but abstract, one needs to quantify it with disentanglement metrics to evaluate and compare the quality of disentangled representations between different models. Current disentanglement metrics are designed to measure the concentration, e.g., absolute deviation, variance, or entropy, of each variable conditioned by each generative factor, optionally offset by the concentration of its marginal distribution, and compare it among different variables. When representations consist of more than two variables, such metrics may fail to detect the interplay between them as they only measure pairwise interactions. In this work, we use the Partial Information Decomposition framework to evaluate information sharing between more than two variables, and build a framework, including a new disentanglement metric, for analyzing how the representations encode the generative factors distinctly, redundantly, and cooperatively. We establish an experimental protocol to assess how each metric evaluates increasingly entangled representations and confirm through artificial and realistic settings that the proposed metric correctly responds to entanglement. Our results are expected to promote information theoretic understanding of disentanglement and lead to further development of metrics as well as learning methods.
翻訳日:2021-09-01 22:06:57 公開日:2021-08-31
# (参考訳) 敬礼を楽しむ: 言葉敬礼によるトランスフォーマーベースの忠実な説明 [全文訳有]

Enjoy the Salience: Towards Better Transformer-based Faithful Explanations with Word Salience ( http://arxiv.org/abs/2108.13759v1 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) BERTのような事前訓練されたトランスフォーマーベースモデルは、自然言語処理タスクに適応する際に最先端の予測性能を示す。 オープンな問題は、これらのモデルの予測に対する説明(理論)の忠実性を改善する方法である。 本稿では,学習データから事前情報を抽出することで,下流課題の微調整中にモデルが学習したタスク固有の情報を補うことができると仮定する。 そこで,本研究では,SaLossの提案による予測を行う際に,情報入力トークンの代入の重要性を忘れないようにすることを目的としている。これは,TextRankを用いて抽出した事前情報に近接する訓練中に,多頭部注意機構を誘導する補助的損失関数である。 SaLossでトレーニングされたモデルは、バニラBERTと比較して、4つの異なる特徴属性メソッドに一貫して忠実な説明を提供する。 さらに,vanilla bert および saloss モデルから抽出した理論を用いて固有に忠実な分類器を訓練することにより,下流タスクの予測性能が向上することを示す。

Pretrained transformer-based models such as BERT have demonstrated state-of-the-art predictive performance when adapted into a range of natural language processing tasks. An open problem is how to improve the faithfulness of explanations (rationales) for the predictions of these models. In this paper, we hypothesize that salient information extracted a priori from the training data can complement the task-specific information learned by the model during fine-tuning on a downstream task. In this way, we aim to help BERT not to forget assigning importance to informative input tokens when making predictions by proposing SaLoss; an auxiliary loss function for guiding the multi-head attention mechanism during training to be close to salient information extracted a priori using TextRank. Experiments for explanation faithfulness across five datasets, show that models trained with SaLoss consistently provide more faithful explanations across four different feature attribution methods compared to vanilla BERT. Using the rationales extracted from vanilla BERT and SaLoss models to train inherently faithful classifiers, we further show that the latter result in higher predictive performance in downstream tasks.
翻訳日:2021-09-01 21:47:07 公開日:2021-08-31
# (参考訳) ロゴ検出のためのガイドアンコリングによる識別的セマンティック特徴ピラミッドネットワーク [全文訳有]

Discriminative Semantic Feature Pyramid Network with Guided Anchoring for Logo Detection ( http://arxiv.org/abs/2108.13775v1 )

ライセンス: CC BY 4.0
Baisong Zhang, Weiqing Min, Jing Wang, Sujuan Hou, Qiang Hou, Yuanjie Zheng, Shuqiang Jiang(参考訳) 近年,知的財産保護,製品ブランド管理,ロゴ持続時間監視といったマルチメディア分野の幅広い応用において,ロゴ検出が注目されている。 一般的なオブジェクト検出とは異なり、ロゴ検出は特に小さなロゴオブジェクトと現実世界のシナリオにおける大きなアスペクト比のロゴオブジェクトに対して難しいタスクである。 本稿では,意味情報を集約し,異なるアスペクト比アンカーボックスを生成することにより,これらの課題に対処できる,dsfp-gaを用いた識別的意味的特徴ピラミッドネットワークという新しいアプローチを提案する。 より具体的には,本手法は主に差別的意味的特徴ピラミッド(DSFP)とガイドアンコリング(GA)から構成される。 小さいロゴオブジェクトを検出するために使用される低レベル特徴マップに意味情報がないことを考慮し、低レベル特徴マップのより識別的な意味的特徴を豊かにし、小さなロゴオブジェクトのパフォーマンスを向上させるdsfpを提案する。 さらに、大アスペクト比ロゴオブジェクトの検出には、プリセットアンカーボックスの効率が低い。 そこで我々はgaを本手法に統合し,この問題を軽減するために大きなアスペクト比アンカーボックスを生成する。 提案したDSFP-GAの有効性を4つのベンチマークで検証した。 さらに,小型・大型のロゴオブジェクトの検出において,この手法の利点を示すために,視覚解析およびアブレーション研究を行っている。 コードとモデルはhttps://github.com/Z hangbaisong/DSFP-GAで見ることができる。

Recently, logo detection has received more and more attention for its wide applications in the multimedia field, such as intellectual property protection, product brand management, and logo duration monitoring. Unlike general object detection, logo detection is a challenging task, especially for small logo objects and large aspect ratio logo objects in the real-world scenario. In this paper, we propose a novel approach, named Discriminative Semantic Feature Pyramid Network with Guided Anchoring (DSFP-GA), which can address these challenges via aggregating the semantic information and generating different aspect ratio anchor boxes. More specifically, our approach mainly consists of Discriminative Semantic Feature Pyramid (DSFP) and Guided Anchoring (GA). Considering that low-level feature maps that are used to detect small logo objects lack semantic information, we propose the DSFP, which can enrich more discriminative semantic features of low-level feature maps and can achieve better performance on small logo objects. Furthermore, preset anchor boxes are less efficient for detecting large aspect ratio logo objects. We therefore integrate the GA into our method to generate large aspect ratio anchor boxes to mitigate this issue. Extensive experimental results on four benchmarks demonstrate the effectiveness of our proposed DSFP-GA. Moreover, we further conduct visual analysis and ablation studies to illustrate the advantage of our method in detecting small and large aspect logo objects. The code and models can be found at https://github.com/Z hangbaisong/DSFP-GA.
翻訳日:2021-09-01 21:29:04 公開日:2021-08-31
# (参考訳) ネットワーク心理学と認知ネットワーク科学は、数学不安の複雑さを検出し、理解し、対処する新しい方法を開く:レビュー [全文訳有]

Network psychometrics and cognitive network science open new ways for detecting, understanding and tackling the complexity of math anxiety: A review ( http://arxiv.org/abs/2108.13800v1 )

ライセンス: CC BY 4.0
Massimo Stella(参考訳) 数学不安は、数学に関連する文脈における認知処理を損なう臨床病理である。 元々は経験不足で低学歴の学生にしか影響しないと考えられていたが、近年の研究では、ハイパフォーマンスな学習者でも数学の不安がいかに広く拡散しているかが示されている。 This review of data-informed studies outlines math anxiety as a complex system that: (i) cripples well-being, self-confidence and information processing on both conscious and subconscious levels, (ii) can be transmitted by social interactions, like a pathogen, and worsened by distorted perceptions, (iii) affects roughly 20% of students in 63 out of 64 worldwide educational systems but correlates weakly with academic performance, and (iv) poses a concrete threat to students' well-being, computational literacy and career prospects in science. これらのパターンは、数学の不安を推定する上で、パフォーマンスを超越する必要性を強調するものだ。 ネットワーク心理学と認知ネットワーク科学の最近の進歩は、そのような臨床状態を検出し、解釈し、介入するための理想的な枠組みを提供する。 教育研究,心理学,データサイエンスを融合したこのアプローチは,多変量相関モデル(例:多変量相関モデル)として表される複雑なシステムとして心理学的構成を再構築するものである。 グラフ探索分析)、あるいは意味/感情関係の認知ネットワークとして(例えば、) フリー・アソシエーション・ネットワークや フォーマ・メンティス・ネットワーク) これらの相互接続されたネットワークは、数学の不安の隠れたレベルを検出するだけでなく、より重要なこととして、相互作用する要因の特定のレイアウトを明らかにすることができる。 重要な情報源と目標 特定のコホートでの 数学不安の裏側 ここで述べたように、これらのネットワークは、生徒の知覚、感情、精神的幸福を明らかにするための具体的な方法にアプローチし、将来の強力なデータインフォームド介入が数学の不安をなくすことを可能にします。

Math anxiety is a clinical pathology impairing cognitive processing in math-related contexts. Originally thought to affect only inexperienced, low-achieving students, recent investigations show how math anxiety is vastly diffused even among high-performing learners. This review of data-informed studies outlines math anxiety as a complex system that: (i) cripples well-being, self-confidence and information processing on both conscious and subconscious levels, (ii) can be transmitted by social interactions, like a pathogen, and worsened by distorted perceptions, (iii) affects roughly 20% of students in 63 out of 64 worldwide educational systems but correlates weakly with academic performance, and (iv) poses a concrete threat to students' well-being, computational literacy and career prospects in science. These patterns underline the crucial need to go beyond performance for estimating math anxiety. Recent advances with network psychometrics and cognitive network science provide ideal frameworks for detecting, interpreting and intervening upon such clinical condition. Merging education research, psychology and data science, the approaches reviewed here reconstruct psychological constructs as complex systems, represented either as multivariate correlation models (e.g. graph exploratory analysis) or as cognitive networks of semantic/emotional associations (e.g. free association networks or forma mentis networks). Not only can these interconnected networks detect otherwise hidden levels of math anxiety but - more crucially - they can unveil the specific layout of interacting factors, e.g. key sources and targets, behind math anxiety in a given cohort. As discussed here, these network approaches open concrete ways for unveiling students' perceptions, emotions and mental well-being, and can enable future powerful data-informed interventions untangling math anxiety.
翻訳日:2021-09-01 21:04:53 公開日:2021-08-31
# (参考訳) 逐次クエリレコメンデーションのための最大ユーティリティに基づくアーム選択戦略 [全文訳有]

Max-Utility Based Arm Selection Strategy For Sequential Query Recommendations ( http://arxiv.org/abs/2108.13810v1 )

ライセンス: CC BY 4.0
Shameem A. Puthiya Parambath, Christos Anagnostopoulos, Roderick Murray-Smith, Sean MacAvaney, Evangelos Zervas(参考訳) オンライン情報収集や探索分析などのクローズドループ対話型学習環境におけるクエリ推薦問題を考える。 この問題は、数え切れない数の腕を持つマルチアーマッドバンド(MAB)フレームワークを使って、自然にモデル化することができる。 数え切れないほど多くのアームに対する標準的なMABアルゴリズムは、ランダムな候補アームの選択から始まり、この候補セットの下流に UCB などの標準MABアルゴリズムを適用する。 このような選択戦略は、しばしば高い累積的後悔をもたらすことを示し、この目的のために、武器の最大有効性に基づく選択戦略を提案する。 逐次的クエリ推薦を行うオンライン情報収集などのタスクでは,現在実行中のクエリに対して最大有効性を持つクエリを選択することで,クエリのシーケンスを関連付け,潜在的に最適なクエリの数を管理可能なサイズに削減できることを示す。 最近の実オンライン文献発見サービスlog fileを用いた実験の結果,提案手法は,最先端のベースラインアルゴリズムに対して,蓄積的後悔を著しく改善することが示された。 %であり,多腕バンディットアルゴリズムではランダム選択戦略が一般的であった。 データモデルとソースコードは ~\url{https://anonymous.4o pen.science/r/0e5ad6 b7-ac02-4577-9212-c9 d505d3dbdb/} で利用可能です。

We consider the query recommendation problem in closed loop interactive learning settings like online information gathering and exploratory analytics. The problem can be naturally modelled using the Multi-Armed Bandits (MAB) framework with countably many arms. The standard MAB algorithms for countably many arms begin with selecting a random set of candidate arms and then applying standard MAB algorithms, e.g., UCB, on this candidate set downstream. We show that such a selection strategy often results in higher cumulative regret and to this end, we propose a selection strategy based on the maximum utility of the arms. We show that in tasks like online information gathering, where sequential query recommendations are employed, the sequences of queries are correlated and the number of potentially optimal queries can be reduced to a manageable size by selecting queries with maximum utility with respect to the currently executing query. Our experimental results using a recent real online literature discovery service log file demonstrate that the proposed arm selection strategy improves the cumulative regret substantially with respect to the state-of-the-art baseline algorithms. % and commonly used random selection strategy for a variety of contextual multi-armed bandit algorithms. Our data model and source code are available at ~\url{https://anonymous.4o pen.science/r/0e5ad6 b7-ac02-4577-9212-c9 d505d3dbdb/}.
翻訳日:2021-09-01 20:48:39 公開日:2021-08-31
# (参考訳) 教師なしオープンドメイン質問応答 [全文訳有]

Unsupervised Open-Domain Question Answering ( http://arxiv.org/abs/2108.13817v1 )

ライセンス: CC BY 4.0
Pengfei Zhu and Xiaoguang Li and Jian Li and Hai Zhao(参考訳) オープンドメイン質問回答 (ODQA) は教師あり学習の仕方で大きな成果を上げている。 しかし、データアノテーションは、オープンドメインにおけるその大きな需要に対しても耐えられない。 教師なしQAや教師なしMachine Reading Comprehension(MRC)は多かれ少なかれ試みられているが、教師なしODQAは私たちの知る限りでは触れられていない。 そこで本稿では,タスクを正式に導入し,一連の重要なデータ構築手法を提案することにより,教師なしODQAの研究を先導する。 この研究は、教師なしのODQAが教師なしの86%のパフォーマンスに到達できることを刺激的に示しています。

Open-domain Question Answering (ODQA) has achieved significant results in terms of supervised learning manner. However, data annotation cannot also be irresistible for its huge demand in an open domain. Though unsupervised QA or unsupervised Machine Reading Comprehension (MRC) has been tried more or less, unsupervised ODQA has not been touched according to our best knowledge. This paper thus pioneers the work of unsupervised ODQA by formally introducing the task and proposing a series of key data construction methods. Our exploration in this work inspiringly shows unsupervised ODQA can reach up to 86% performance of supervised ones.
翻訳日:2021-09-01 20:17:47 公開日:2021-08-31
# (参考訳) インドにおけるcovid-19感染者予測のための時間的ディープラーニングアーキテクチャ [全文訳有]

Temporal Deep Learning Architecture for Prediction of COVID-19 Cases in India ( http://arxiv.org/abs/2108.13823v1 )

ライセンス: CC BY 4.0
Hanuman Verma, Saurav Mandal, Akshansh Gupta(参考訳) 最近の新型コロナウイルス感染症(COVID-19)と闘うため、研究者と臨床医は、新型コロナウイルスの感染拡大を遅らせたり止めたりする、ダイナミックな傾向を予測する新たなアプローチを模索している。 Susceptible-Infected -Recovered (SIR) などの疫学モデルとその変異体は、伝染病のコントロールを最適化するための決定に使用されるパンデミックの動的傾向を理解するのに役立つ。 しかし、これらの数学的仮定に基づく疫学モデルは、実際のパンデミックの状況を予測できないかもしれない。 最近、新型コロナウイルスの拡散のダイナミックな傾向を理解するために、新しい機械学習アプローチが使用されている。 本稿では,バニラLSTM,積み重ねLSTM,ED-LSTM,Bi-LSTM ,CNN,ハイブリッドCNN+LSTMモデルを用いて,新型コロナウイルスの流行の複雑な傾向を把握し,インドとその最も影響を受けた4つの州(マハラシュトラ,ケララ,カルナタカ,タミルナドゥ)に対して,毎日7,14,21日の新型コロナウイルス感染者の予測を行った。 根平均二乗誤差(RMSE)と平均絶対パーセンテージ誤差(MAPE)を試験データ上で算出し,これらのモデルの相対的性能を示す。 その結果,積み重ね型LSTMとハイブリッド型CNN+LSTMは,他のモデルと比較して高い性能を示した。

To combat the recent coronavirus disease 2019 (COVID-19), academician and clinician are in search of new approaches to predict the COVID-19 outbreak dynamic trends that may slow down or stop the pandemic. Epidemiological models like Susceptible-Infected -Recovered (SIR) and its variants are helpful to understand the dynamics trend of pandemic that may be used in decision making to optimize possible controls from the infectious disease. But these epidemiological models based on mathematical assumptions may not predict the real pandemic situation. Recently the new machine learning approaches are being used to understand the dynamic trend of COVID-19 spread. In this paper, we designed the recurrent and convolutional neural network models: vanilla LSTM, stacked LSTM, ED-LSTM, Bi-LSTM, CNN, and hybrid CNN+LSTM model to capture the complex trend of COVID-19 outbreak and perform the forecasting of COVID-19 daily confirmed cases of 7, 14, 21 days for India and its four most affected states (Maharashtra, Kerala, Karnataka, and Tamil Nadu). The root mean square error (RMSE) and mean absolute percentage error (MAPE) evaluation metric are computed on the testing data to demonstrate the relative performance of these models. The results show that the stacked LSTM and hybrid CNN+LSTM models perform best relative to other models.
翻訳日:2021-09-01 20:10:07 公開日:2021-08-31
# (参考訳) 次項目推薦のためのドメイン適応型ホテル埋め込みのアライメント [全文訳有]

Aligning Hotel Embeddings using Domain Adaptation for Next-Item Recommendation ( http://arxiv.org/abs/2108.13824v1 )

ライセンス: CC BY-SA 4.0
Ioannis Partalas(参考訳) オンラインプラットフォームでは、同じグループの下に複数のブランドがあり、異なる顧客プロファイルをターゲットにしたり、異なるドメインを持つこともある。 例えば、ホスピタリティの分野では、Expedia GroupにはBrand Expedia、Hotels.com、Wotifといった複数のブランドがあり、旅行者のプロフィールが異なるか、ローカルな文脈でより関係がある。 この文脈では、複数のブランドでレコメンデーションタスクで活用できるホテルの埋め込みを学習するには、アライメントアプローチを用いて誘導できる共通の埋め込みが必要である。 同時に、この共通の埋め込みスペースがどのブランドでも性能を低下させないようにする必要がある。 本研究は,Hotel2vecモデルに基づいて,異なるブランドのホテル埋め込みをドメイン適応により整列するシンプルな正規化手法を提案する。 また,従来の言語間埋め込みにおけるアライメント手法についても検討した。 2つのブランドのクリックセッションを用いた次報知予測の課題に関する結果を示す。 提案手法は,両ブランドにおいて良好な性能を保ちつつ,2つの埋め込み空間を整列させることができることを示す。 さらに,シングルブランドトレーニングに関して,提案手法がトレーニング時間を著しく短縮し,予測性能を向上させることを示す。

In online platforms it is often the case to have multiple brands under the same group which may target different customer profiles, or have different domains. For example, in the hospitality domain, Expedia Group has multiple brands like Brand Expedia, Hotels.com and Wotif which have either different traveler profiles or are more relevant in a local context. In this context, learning embeddings for hotels that can be leveraged in recommendation tasks in multiple brands requires to have a common embedding that can be induced using alignment approaches. In the same time, one needs to ensure that this common embedding space does not degrade the performance in any of the brands. In this work we build upon the hotel2vec model and propose a simple regularization approach for aligning hotel embeddings of different brands via domain adaptation. We also explore alignment methods previously used in cross-lingual embeddings to align spaces of different languages. We present results on the task of next-hotel prediction using click sessions from two brands. The results show that the proposed approach can align the two embedding spaces while achieving good performance in both brands. Additionally, with respect to single-brand training we show that the proposed approach can significantly reduce training time and improve the predictive performance.
翻訳日:2021-09-01 19:46:55 公開日:2021-08-31
# (参考訳) 自己調整型神経放射場 [全文訳有]

Self-Calibrating Neural Radiance Fields ( http://arxiv.org/abs/2108.13826v1 )

ライセンス: CC BY-SA 4.0
Yoonwoo Jeong, Seokjun Ahn, Christopher Choy, Animashree Anandkumar, Minsu Cho, Jaesik Park(参考訳) 本研究では,任意の非線形歪みを有する汎用カメラのためのカメラ自己校正アルゴリズムを提案する。 キャリブレーション対象を必要とせず,シーンの形状と正確なカメラパラメータを共同で学習する。 我々のカメラモデルは、ピンホールモデル、第4次半径歪み、および任意の非線形カメラ歪みを学習可能な汎用ノイズモデルで構成されている。 従来の自己校正アルゴリズムは、主に幾何学的制約に依存するが、光度整合性も含んでいる。 これはシーンの幾何学を学習し、Neural Radiance Fields(NeRF)を使用します。 また, 複素非線形カメラモデルに幾何学的一貫性を組み込むために, 射影線距離損失関数vizを提案する。 我々は、標準的な実画像データセットにアプローチを検証し、COLMAP初期化なしでカメラの内在性や外在性(目的)をゼロから学習できることを実証する。 また,異なる方法で正確なカメラモデルを学習することで,ベースラインよりもPSNRを向上できることを示す。 私たちのモジュールは簡単に使えるプラグインで、パフォーマンスを改善するためにnerfの変種に適用できます。 コードとデータはhttps://github.com/P OSTECH-CVLab/SCNeRFで公開されている。

In this work, we propose a camera self-calibration algorithm for generic cameras with arbitrary non-linear distortions. We jointly learn the geometry of the scene and the accurate camera parameters without any calibration objects. Our camera model consists of a pinhole model, a fourth order radial distortion, and a generic noise model that can learn arbitrary non-linear camera distortions. While traditional self-calibration algorithms mostly rely on geometric constraints, we additionally incorporate photometric consistency. This requires learning the geometry of the scene, and we use Neural Radiance Fields (NeRF). We also propose a new geometric loss function, viz., projected ray distance loss, to incorporate geometric consistency for complex non-linear camera models. We validate our approach on standard real image datasets and demonstrate that our model can learn the camera intrinsics and extrinsics (pose) from scratch without COLMAP initialization. Also, we show that learning accurate camera models in a differentiable manner allows us to improve PSNR over baselines. Our module is an easy-to-use plugin that can be applied to NeRF variants to improve performance. The code and data are currently available at https://github.com/P OSTECH-CVLab/SCNeRF
翻訳日:2021-09-01 19:38:48 公開日:2021-08-31
# (参考訳) 6G V2X通信のための伝送可能なMIMOチャネルモードの深層学習 [全文訳有]

Deep Learning of Transferable MIMO Channel Modes for 6G V2X Communications ( http://arxiv.org/abs/2108.13831v1 )

ライセンス: CC BY-SA 4.0
Lorenzo Cazzella, Dario Tagliaferri, Marouan Mizmizi, Damiano Badini, Christian Mazzucco, Matteo Matteucci, Umberto Spagnolini(参考訳) ミリ波(mmWave)とサブTHzを用いたV2X通信では,Multiple-Input Multiple-Output(MIMO )チャネル推定は非常に難しい作業である。 mmWaves/sub-THz周波数では、MIMOチャネルは時空領域(方向、到着/出発/出発、遅延)でリードパスがほとんどない。 Algebraic Low-rank(LR)チャネル推定は、リカレントトレーニング車両経路を利用した位置依存型MIMOチャネル固有モードの計算により、時空チャネル間隔を利用する。 LRは車両の地理的位置と各位置に数十から数百の訓練車両の進路を必要とするため、かなりの複雑さと制御信号のオーバーヘッドが生じる。 ここでは,1つのLSチャネル推定から始まり,車両の位置情報を必要としない,V2X都市環境におけるMIMOチャネル固有値推定のためのDLに基づくLRチャネル推定法を設計する。 数値計算により,提案手法は位置ベースLRとして,平均正方形誤差(MSE)に匹敵する性能を示した。 さらに,提案モデルが参照シナリオで訓練され,時空チャネル特性の異なる都市環境に効果的に移行できることを示し,明示的な転送学習手順を伴わずに,mse性能を比較できることを示した。 これにより、任意の密集した都市シナリオへの展開が容易になる。

In the emerging high mobility Vehicle-to-Everythin g (V2X) communications using millimeter Wave (mmWave) and sub-THz, Multiple-Input Multiple-Output (MIMO) channel estimation is an extremely challenging task. At mmWaves/sub-THz frequencies, MIMO channels exhibit few leading paths in the space-time domain (i.e., directions or arrival/departure and delays). Algebraic Low-rank (LR) channel estimation exploits space-time channel sparsity through the computation of position-dependent MIMO channel eigenmodes leveraging recurrent training vehicle passages in the coverage cell. LR requires vehicles' geographical positions and tens to hundreds of training vehicles' passages for each position, leading to significant complexity and control signalling overhead. Here we design a DL-based LR channel estimation method to infer MIMO channel eigenmodes in V2X urban settings, starting from a single LS channel estimate and without needing vehicle's position information. Numerical results show that the proposed method attains comparable Mean Squared Error (MSE) performance as the position-based LR. Moreover, we show that the proposed model can be trained on a reference scenario and be effectively transferred to urban contexts with different space-time channel features, providing comparable MSE performance without an explicit transfer learning procedure. This result eases the deployment in arbitrary dense urban scenarios.
翻訳日:2021-09-01 19:35:24 公開日:2021-08-31
# (参考訳) retriever-readerがシナリオベースのマルチチョイス質問に出会う [全文訳有]

When Retriever-Reader Meets Scenario-Based Multiple-Choice Questions ( http://arxiv.org/abs/2108.13875v1 )

ライセンス: CC BY 4.0
Zixian Huang, Ao Wu, Yulin Shen, Gong Cheng, Yuzhong Qu(参考訳) シナリオベースの質問応答(SQA)は、長いシナリオ記述によって文脈化される質問に答えるために、大きなコーパスから段落を検索して読む必要がある。 シナリオは、検索のためのキーフレーズと多くのノイズの両方を含むため、SQAの検索は非常に困難である。 また、SQAの項の関連ラベルがないため、ほとんど監視できない。 そこで本稿では,新たな単語重み付け機構を通じて,検索者がQAラベルのみを用いて暗黙的に管理されるJEEVESという共同検索モデルを提案する。 JEEVESは3つのSQAデータセットにおいて、複数の質問に対する強力なベースラインを著しく上回る。

Scenario-based question answering (SQA) requires retrieving and reading paragraphs from a large corpus to answer a question which is contextualized by a long scenario description. Since a scenario contains both keyphrases for retrieval and much noise, retrieval for SQA is extremely difficult. Moreover, it can hardly be supervised due to the lack of relevance labels of paragraphs for SQA. To meet the challenge, in this paper we propose a joint retriever-reader model called JEEVES where the retriever is implicitly supervised only using QA labels via a novel word weighting mechanism. JEEVES significantly outperforms a variety of strong baselines on multiple-choice questions in three SQA datasets.
翻訳日:2021-09-01 19:14:10 公開日:2021-08-31
# (参考訳) StyleALAEを用いた実世界の画像のセマンティック顔編集のためのワンショットドメイン適応 [全文訳有]

One-shot domain adaptation for semantic face editing of real world images using StyleALAE ( http://arxiv.org/abs/2108.13876v1 )

ライセンス: CC BY 4.0
Ravi Kiran Reddy, Kumar Shubham, Gopalakrishnan Venkatesh, Sriram Gandikota, Sarthak Khoche, Dinesh Babu Jayagopi, Gopalakrishnan Srinivasaraghavan(参考訳) 実世界の顔画像のセマンティック顔編集は、生成モデルの重要な応用である。 近年,事前学習したGANモデルの潜伏構造を用いて,このような修正を可能にする技術が複数研究されている。 しかし、そのようなアプローチはエンコーダネットワークのトレーニングを必要とすることが多く、通常は時間を要するリソース集約的なプロセスである。 このようなGANベースのアーキテクチャの代替として,高品質なフォトリアリスティック画像を生成する潜在空間ベースのオートエンコーダであるstyleALAE がある。 残念ながら、styleALAEの再構成画像は入力された顔画像の同一性を保存していない。 これは、既知のアイデンティティを持つ画像の意味的な顔編集に対するstylealaeの適用を制限する。 我々の研究では、この問題に対処するために、最近のワンショットドメイン適応の進歩を使用します。 本研究は、再構成画像の同一性が入力画像と同一であることを保証する。 さらに,事前学習型ALAEモデルの潜在空間を用いて,再構成画像に対する意味的修飾を生成する。 その結果,本手法は同一性を維持しつつ,任意の実世界の顔画像に対して意味的修正を生成できることがわかった。

Semantic face editing of real world facial images is an important application of generative models. Recently, multiple works have explored possible techniques to generate such modifications using the latent structure of pre-trained GAN models. However, such approaches often require training an encoder network and that is typically a time-consuming and resource intensive process. A possible alternative to such a GAN-based architecture can be styleALAE, a latent-space based autoencoder that can generate photo-realistic images of high quality. Unfortunately, the reconstructed image in styleALAE does not preserve the identity of the input facial image. This limits the application of styleALAE for semantic face editing of images with known identities. In our work, we use a recent advancement in one-shot domain adaptation to address this problem. Our work ensures that the identity of the reconstructed image is the same as the given input image. We further generate semantic modifications over the reconstructed image by using the latent space of the pre-trained styleALAE model. Results show that our approach can generate semantic modifications on any real world facial image while preserving the identity.
翻訳日:2021-09-01 19:00:31 公開日:2021-08-31
# (参考訳) 記事,Like Audience: 偽情報検出のためのマルチモーダル相関を強制する [全文訳有]

Like Article, Like Audience: Enforcing Multimodal Correlations for Disinformation Detection ( http://arxiv.org/abs/2108.13892v1 )

ライセンス: CC BY 4.0
Liesbeth Allein, Marie-Francine Moens and Domenico Perrotta(参考訳) ユーザ生成コンテンツ(ツイートやプロフィール記述など)とユーザ間の共有コンテンツ(ニュース記事など)は、ユーザのオンラインアイデンティティを反映している。 本稿では,ユーザ生成コンテンツとユーザ共有コンテンツとの相関が,オンラインニュース記事の偽情報検出に有効かどうかを検討する。 偽情報検出のためのマルチモーダル学習アルゴリズムを開発した。 ニュース記事の潜在表現とユーザ生成コンテンツにより、トレーニング中に評価対象のニュース記事と類似したコンテンツを好むユーザのプロファイルによってモデルがガイドされ、異なるユーザ間でコンテンツが共有されている場合、この効果が強化される。 モデル最適化中にユーザー情報を活用するだけで、モデルは記事の妥当性を予測する際にユーザープロファイリングに依存しない。 このアルゴリズムは、広く使われている3つのニューラル分類器に適用され、異なるデータセットで結果が得られる。 可視化手法により,提案モデルでは,偽ニュースと実ニュースを区別した未確認ニュース記事の特徴表現が学習された。

User-generated content (e.g., tweets and profile descriptions) and shared content between users (e.g., news articles) reflect a user's online identity. This paper investigates whether correlations between user-generated and user-shared content can be leveraged for detecting disinformation in online news articles. We develop a multimodal learning algorithm for disinformation detection. The latent representations of news articles and user-generated content allow that during training the model is guided by the profile of users who prefer content similar to the news article that is evaluated, and this effect is reinforced if that content is shared among different users. By only leveraging user information during model optimization, the model does not rely on user profiling when predicting an article's veracity. The algorithm is successfully applied to three widely used neural classifiers, and results are obtained on different datasets. Visualization techniques show that the proposed model learns feature representations of unseen news articles that better discriminate between fake and real news texts.
翻訳日:2021-09-01 18:50:20 公開日:2021-08-31
# (参考訳) 表現学習における多様体学習の視点:デコーダとエンコーダのない表現を学習する [全文訳有]

A manifold learning perspective on representation learning: Learning decoder and representations without an encoder ( http://arxiv.org/abs/2108.13910v1 )

ライセンス: CC BY 4.0
Viktoria Schuster and Anders Krogh(参考訳) オートエンコーダは表現学習によく使われる。 それらはエンコーダとデコーダで構成されており、入力空間内の$n$次元データをより低い$m$次元の表現空間にマッピングする簡単な方法を提供する。 デコーダ自体は入力空間における$m$-次元多様体を定義する。 多様体学習に触発されて, 学習サンプルの表現と勾配降下を用いたデコーダ重みを学習することにより, デコーダを単独で学習できることを示した。 次に、二乗和損失は、トレーニングサンプルへの最小ユークリッド距離を持つ多様体を最適化することに対応し、他の損失関数も同様である。 エンコーダとデコーダを指定するのに必要なサンプル数を表す式を導出し、デコーダがエンコーダと比較した場合、一般的により少ないトレーニングサンプルを必要とすることを示す。 本稿では,この観点からのオートエンコーダのトレーニングについて論じるとともに,ノイズの多いトレーニング例やその他の正規化手法を用いた分野における過去の作業について述べる。 自然画像データセット MNIST と CIFAR10 では、デコーダが低次元表現、特に小さなデータセットで訓練された場合、より適していることを示す。 シミュレーションされた遺伝子制御データを用いて、デコーダのみがより良い一般化と有意義な表現をもたらすことを示す。 デコーダをトレーニングする我々のアプローチは、小さなデータセットでも表現学習を容易にし、オートエンコーダのトレーニングを改善することができる。 簡単な分析が表現学習の概念的理解の向上に寄与することを期待している。

Autoencoders are commonly used in representation learning. They consist of an encoder and a decoder, which provide a straightforward way to map $n$-dimensional data in input space to a lower $m$-dimensional representation space and back. The decoder itself defines an $m$-dimensional manifold in input space. Inspired by manifold learning, we show that the decoder can be trained on its own by learning the representations of the training samples along with the decoder weights using gradient descent. A sum-of-squares loss then corresponds to optimizing the manifold to have the smallest Euclidean distance to the training samples, and similarly for other loss functions. We derive expressions for the number of samples needed to specify the encoder and decoder and show that the decoder generally requires much less training samples to be well-specified compared to the encoder. We discuss training of autoencoders in this perspective and relate to previous work in the field that use noisy training examples and other types of regularization. On the natural image data sets MNIST and CIFAR10, we demonstrate that the decoder is much better suited to learn a low-dimensional representation, especially when trained on small data sets. Using simulated gene regulatory data, we further show that the decoder alone leads to better generalization and meaningful representations. Our approach of training the decoder alone facilitates representation learning even on small data sets and can lead to improved training of autoencoders. We hope that the simple analyses presented will also contribute to an improved conceptual understanding of representation learning.
翻訳日:2021-09-01 18:31:51 公開日:2021-08-31
# (参考訳) ブラックボックスデフォルト予測モデルの解釈について : イタリアの中小企業の場合 [全文訳有]

On the interpretation of black-box default prediction models: an Italian Small and Medium Enterprises case ( http://arxiv.org/abs/2108.13914v1 )

ライセンス: CC BY 4.0
Lisa Crosato, Caterina Liberati and Marco Repetto(参考訳) 学術研究と金融業界は最近、複雑な学習タスクを解く能力のために機械学習アルゴリズムに大きな注目を集めている。 しかし、企業のデフォルト予測の分野において、解釈可能性の欠如はブラックボックスタイプのモデルが広く採用されるのを妨げている。 この欠点を克服し、ブラックボックスの高性能性を維持するため、本論文はモデルに依存しないアプローチを採用している。 蓄積された局所効果とシェープの値は、予測者のデフォルトの確率への影響を形作り、モデル結果への貢献に応じてランク付けするために使用される。 予測は、2つの機械学習アルゴリズム(extreme gradient boostingとfeedforward neural network)によって達成される。 その結果, イタリアの中小企業生産産業の分析は, リッチな解釈枠組みを諦めることなく, 極度勾配ブースティングアルゴリズムにより, 分類力の最高値から利益を得られることがわかった。

Academic research and the financial industry have recently paid great attention to Machine Learning algorithms due to their power to solve complex learning tasks. In the field of firms' default prediction, however, the lack of interpretability has prevented the extensive adoption of the black-box type of models. To overcome this drawback and maintain the high performances of black-boxes, this paper relies on a model-agnostic approach. Accumulated Local Effects and Shapley values are used to shape the predictors' impact on the likelihood of default and rank them according to their contribution to the model outcome. Prediction is achieved by two Machine Learning algorithms (eXtreme Gradient Boosting and FeedForward Neural Network) compared with three standard discriminant models. Results show that our analysis of the Italian Small and Medium Enterprises manufacturing industry benefits from the overall highest classification power by the eXtreme Gradient Boosting algorithm without giving up a rich interpretation framework.
翻訳日:2021-09-01 18:16:51 公開日:2021-08-31
# (参考訳) ゼロショットスロット充満のためのロバスト検索生成 [全文訳有]

Robust Retrieval Augmented Generation for Zero-shot Slot Filling ( http://arxiv.org/abs/2108.13934v1 )

ライセンス: CC BY 4.0
Michael Glass, Gaetano Rossiello, Md Faisal Mahbub Chowdhury, Alfio Gliozzo(参考訳) ドキュメントのコレクションから高品質な知識グラフを自動生成することは、AIでは依然として難しい問題である。 この問題を解決する方法の1つは、スロットフィリングと呼ばれる関連するタスクの進歩である。 このタスクでは、[Entity, Slot, ?]という形式でエンティティクエリが与えられます。 ]所定の文書コレクション内の関連通路から抽出された証拠を利用して不足値を生成し、抽出することにより、スロットを埋めるようにシステムに依頼する。 この分野における最近の研究は、検索に基づく言語モデルを用いてエンドツーエンドでこの課題を解決しようとしている。 本稿では,新しいゼロショットスロット充填法を提案する。ハード負の密閉通路検索と拡張生成モデル検索のためのロバストなトレーニング手順を提案する。 提案モデルでは,T-RExおよびzsREスロット充填データセットの大幅な改善,経路検索とスロット値生成の改善,KILTリーダーボードの上位1位にランクインした。 さらに、ゼロ/フェーショット学習の組み合わせにより、スロットフィリングのためのTACREDデータセットの新たな変種に対して、ドメイン適応能力を示すシステムの堅牢性を示す。 ソースコードと事前学習したモデルをリリースします。

Automatically inducing high quality knowledge graphs from a given collection of documents still remains a challenging problem in AI. One way to make headway for this problem is through advancements in a related task known as slot filling. In this task, given an entity query in form of [Entity, Slot, ?], a system is asked to fill the slot by generating or extracting the missing value exploiting evidence extracted from relevant passage(s) in the given document collection. The recent works in the field try to solve this task in an end-to-end fashion using retrieval-based language models. In this paper, we present a novel approach to zero-shot slot filling that extends dense passage retrieval with hard negatives and robust training procedures for retrieval augmented generation models. Our model reports large improvements on both T-REx and zsRE slot filling datasets, improving both passage retrieval and slot value generation, and ranking at the top-1 position in the KILT leaderboard. Moreover, we demonstrate the robustness of our system showing its domain adaptation capability on a new variant of the TACRED dataset for slot filling, through a combination of zero/few-shot learning. We release the source code and pre-trained models.
翻訳日:2021-09-01 17:56:06 公開日:2021-08-31
# (参考訳) scatsimclr: 小規模データセットのためのプリテキストタスク正規化による自己教師付きコントラスト学習 [全文訳有]

ScatSimCLR: self-supervised contrastive learning with pretext task regularization for small-scale datasets ( http://arxiv.org/abs/2108.13939v1 )

ライセンス: CC BY 4.0
Vitaliy Kinakh, Olga Taran, Svyatoslav Voloshynovskiy(参考訳) 本稿では,データの複数ビュー間の対照的な損失に基づく小規模データセットに対する自己教師型学習の課題について考察する。 複雑なアーキテクチャを必要とするトレーニングの複雑さ、データ拡張によって生成されるビューの必要な数、そして分類精度への影響といった要因は、未検討の問題である。 これらの要因の役割を確立するために、ベースラインモデルが幾何学的に不変な「手作り」ネットワークのスカトネットに置き換えられるsimclrのようなコントラスト損失システムのアーキテクチャを検討し、システム全体のパラメータ数とビュー数を実質的に同じ分類精度を維持しながら大幅に削減できると主張する。 さらに,従来のベースラインモデルとScatNetモデルの両方に対して,回転やジグソーの置換といった拡張変換のパラメータを推定し,プレテキストタスク学習を用いた正規化戦略の効果を検討する。 最後に,タスク学習規則化を前提とした提案アーキテクチャは,訓練可能なパラメータの数が少なく,ビュー数が少なく,最先端の分類性能を実現することを実証する。

In this paper, we consider a problem of self-supervised learning for small-scale datasets based on contrastive loss between multiple views of the data, which demonstrates the state-of-the-art performance in classification task. Despite the reported results, such factors as the complexity of training requiring complex architectures, the needed number of views produced by data augmentation, and their impact on the classification accuracy are understudied problems. To establish the role of these factors, we consider an architecture of contrastive loss system such as SimCLR, where baseline model is replaced by geometrically invariant "hand-crafted" network ScatNet with small trainable adapter network and argue that the number of parameters of the whole system and the number of views can be considerably reduced while practically preserving the same classification accuracy. In addition, we investigate the impact of regularization strategies using pretext task learning based on an estimation of parameters of augmentation transform such as rotation and jigsaw permutation for both traditional baseline models and ScatNet based models. Finally, we demonstrate that the proposed architecture with pretext task learning regularization achieves the state-of-the-art classification performance with a smaller number of trainable parameters and with reduced number of views.
翻訳日:2021-09-01 17:41:10 公開日:2021-08-31
# (参考訳) bubblewrap: 神経多様体上のオンラインタイリングとリアルタイムフロー予測 [全文訳有]

Bubblewrap: Online tiling and real-time flow prediction on neural manifolds ( http://arxiv.org/abs/2108.13941v1 )

ライセンス: CC BY 4.0
Anne Draelos, Pranjal Gupta, Na Young Jun, Chaichontat Sriworarat, John Pearson(参考訳) 実験神経科学における機能に関する古典的な研究は、個々のニューロンのコーディング特性に焦点を合わせてきたが、最近の記録技術の発展は、神経集団のダイナミクスに重点を置いている。 これは、実験変数に関連する集団活動を分析するための様々なモデルを生み出してきたが、多くの神経集団仮説の直接テストには、現在の神経状態に基づくシステムへの介入が必要であり、オンラインで神経状態を推測できるモデルが必要となる。 既存のアプローチは、主に力学系に基づいており、ノイズが支配するシステムでは容易に破られ、現代の実験では何千ものデータチャネルにスケールしない強力なパラメトリックな仮定を必要とする。 そこで本研究では, 高速で安定な次元の縮小と, 得られる神経多様体のソフトティリングを組み合わせることにより, タイル間の確率フローとしてダイナミクスを近似する手法を提案する。 この方法は、オンライン期待の最大化、数万のタイルへのスケール、あるいはノイズに支配されたり、マルチモーダル遷移確率を特徴とする既存手法よりも効率よく適合させることができる。 得られたモデルはキロヘルツデータレートでトレーニングでき、数分以内に正確な神経動力学の近似を生成し、ミリ秒以下の時間スケールで予測を生成する。 将来への多くの時間ステップを通じて予測性能を保持し、クローズドループ因果実験の構成要素として機能するのに十分な速度である。

While most classic studies of function in experimental neuroscience have focused on the coding properties of individual neurons, recent developments in recording technologies have resulted in an increasing emphasis on the dynamics of neural populations. This has given rise to a wide variety of models for analyzing population activity in relation to experimental variables, but direct testing of many neural population hypotheses requires intervening in the system based on current neural state, necessitating models capable of inferring neural state online. Existing approaches, primarily based on dynamical systems, require strong parametric assumptions that are easily violated in the noise-dominated regime and do not scale well to the thousands of data channels in modern experiments. To address this problem, we propose a method that combines fast, stable dimensionality reduction with a soft tiling of the resulting neural manifold, allowing dynamics to be approximated as a probability flow between tiles. This method can be fit efficiently using online expectation maximization, scales to tens of thousands of tiles, and outperforms existing methods when dynamics are noise-dominated or feature multi-modal transition probabilities. The resulting model can be trained at kiloHertz data rates, produces accurate approximations of neural dynamics within minutes, and generates predictions on submillisecond time scales. It retains predictive performance throughout many time steps into the future and is fast enough to serve as a component of closed-loop causal experiments.
翻訳日:2021-09-01 17:26:18 公開日:2021-08-31
# (参考訳) 大学生支援ネットワークを用いた意思決定木に基づく学業成績予測モデル

Decision Tree-Based Predictive Models for Academic Achievement Using College Students' Support Networks ( http://arxiv.org/abs/2108.13947v1 )

ライセンス: CC BY 4.0
Anthony Frazier, Joethi Silva, Rachel Meilak, Indranil Sahoo, David Chan and Michael Broda(参考訳) 本研究では,米国中大西洋地域の大公立大学に入学した484人の学生を対象に,新型コロナウイルスパンデミックの早期に収集した一次データについて検討した。 データはtie dataと呼ばれ、学生の人口統計とサポートネットワーク情報を含んでいた。 サポートネットワークデータは、サポートの種類(例えば、サポートの種類を強調した情報からなる。 感情的、教育的、日常的または激しい) このデータセットを用いて,自己報告GPAによって定量化された学生の学業業績を予測するモデルを,決定木アルゴリズムであるChi-Square Automatic Interaction Detection (CHAID)と条件推論木を用いたランダム森林アルゴリズムであるcforestを用いて作成した。 各アルゴリズムが提案する重要な変数の集合における手法の精度と変動を比較した。 それぞれのアルゴリズムは、重複のある異なる学生層にとって重要な異なる変数を見出した。 白人学生は学業成績の予測において異なるタイプの教育支援が重要であり、非白人学生では学業成績の予測において異なるタイプの情緒的支援が重要であった。 シゲンダー女子の学業成績の予測には, 異なるタイプの日常的支援が重要であるが, シゲンダー男子の学業成績の予測には, 異なるタイプの激しい支援が重要である。

In this study, we examine a set of primary data collected from 484 students enrolled in a large public university in the Mid-Atlantic United States region during the early stages of the COVID-19 pandemic. The data, called Ties data, included students' demographic and support network information. The support network data comprised of information that highlighted the type of support, (i.e. emotional or educational; routine or intense). Using this data set, models for predicting students' academic achievement, quantified by their self-reported GPA, were created using Chi-Square Automatic Interaction Detection (CHAID), a decision tree algorithm, and cforest, a random forest algorithm that uses conditional inference trees. We compare the methods' accuracy and variation in the set of important variables suggested by each algorithm. Each algorithm found different variables important for different student demographics with some overlap. For White students, different types of educational support were important in predicting academic achievement, while for non-White students, different types of emotional support were important in predicting academic achievement. The presence of differing types of routine support were important in predicting academic achievement for cisgender women, while differing types of intense support were important in predicting academic achievement for cisgender men.
翻訳日:2021-09-01 17:01:36 公開日:2021-08-31
# (参考訳) Astrocytes mediate analogous memory in a multi-layer neuron-astrocytic network [全文訳有]

Astrocytes mediate analogous memory in a multi-layer neuron-astrocytic network ( http://arxiv.org/abs/2108.13414v1 )

ライセンス: CC BY 4.0
Yuliya Tsybina, Innokentiy Kastalskiy, Mikhail Krivonosov, Alexey Zaikin, Victor Kazantsev, Alexander Gorban and Susanna Gordleeva(参考訳) 短期記憶に基づく神経過程のモデル化は、神経科学における多くの理論的研究の焦点となっている。 本稿では、スパイキングニューロンネットワーク(SNN)の数学的モデルを提案し、他の刺激が来なければ、情報の断片が数秒間堅牢な活動パターンとして維持され、完全に消滅することを示す。 このような短期記憶の痕跡は、SNNに伴うアストロサイト活性化によって保存される。 アストロサイトは数秒の時間スケールでカルシウム透過性を示す。 これらのトランジェントはシナプス伝達の効率をさらに調整し、そのため、グリオトランスミッター放出による様々な時間スケールでの近隣ニューロンの発射速度を調節する。 このような過渡性が神経放電の周波数を連続的にエンコードし、アナログ情報の堅牢な短期記憶を提供することを示す。 この種の短期記憶は、操作情報を数秒保存し、次のパターンとの重複を避けるために完全に忘れてしまう。 snnは、局所的な細胞間拡散結合によってアストロサイト層と相互に結合する。 アストロサイトは、隣接するニューロンが非常に同期的に発火するときにのみ活性化される。 情報パターンがロードされたとき。 例えば、灰色のレベルがニューロンを刺激する電流のレベルをコードする人々の顔のグレースケール写真を撮影しました。 アストロサイトフィードバックは、神経細胞の発射頻度を変化させてシナプス伝達を調節する。 任意のパターンをロードし、一定の間隔で保存し、適切なヒントパターンが入力に適用された場合に検索する方法について示す。

Modeling the neuronal processes underlying short-term working memory remains the focus of many theoretical studies in neuroscience. Here we propose a mathematical model of spiking neuron network (SNN) demonstrating how a piece of information can be maintained as a robust activity pattern for several seconds then completely disappear if no other stimuli come. Such short-term memory traces are preserved due to the activation of astrocytes accompanying the SNN. The astrocytes exhibit calcium transients at a time scale of seconds. These transients further modulate the efficiency of synaptic transmission and, hence, the firing rate of neighboring neurons at diverse timescales through gliotransmitter release. We show how such transients continuously encode frequencies of neuronal discharges and provide robust short-term storage of analogous information. This kind of short-term memory can keep operative information for seconds, then completely forget it to avoid overlapping with forthcoming patterns. The SNN is inter-connected with the astrocytic layer by local inter-cellular diffusive connections. The astrocytes are activated only when the neighboring neurons fire quite synchronously, e.g. when an information pattern is loaded. For illustration, we took greyscale photos of people's faces where the grey level encoded the level of applied current stimulating the neurons. The astrocyte feedback modulates (facilitates) synaptic transmission by varying the frequency of neuronal firing. We show how arbitrary patterns can be loaded, then stored for a certain interval of time, and retrieved if the appropriate clue pattern is applied to the input.
翻訳日:2021-09-01 17:00:34 公開日:2021-08-31
# (参考訳) 画像から四足動物のキーポイント検出のための新しいデータセット [全文訳有]

A Novel Dataset for Keypoint Detection of quadruped Animals from Images ( http://arxiv.org/abs/2108.13958v1 )

ライセンス: CC BY 4.0
Prianka Banik, Lin Li, Xishuang Dong(参考訳) 本稿では,4本足または4本足の複数の動物種にまたがる共通キーポイント群を画像から配置する問題について検討した。 地上真理アノテーションを用いた大規模動物用キーポイントデータセットの欠如により,画像から四足動物のキーポイント検出のための新しいデータセットであるawa poseを開発した。 我々のデータセットは、動物毎のキーポイントをはるかに多く含み、既存の動物キーポイント検出用データセットよりもはるかに多様な動物を持っている。 このデータセットを最先端のディープラーニングモデルでベンチマークし、キーポイント検出タスクをそれぞれ行ないました。 実験の結果,データセットの有効性が示された。 このデータセットは、一般化された四足動物のキーポイント検出問題に対する改良されたモデルの設計と評価において、コンピュータビジョンコミュニティに役立つと信じている。

In this paper, we studied the problem of localizing a generic set of keypoints across multiple quadruped or four-legged animal species from images. Due to the lack of large scale animal keypoint dataset with ground truth annotations, we developed a novel dataset, AwA Pose, for keypoint detection of quadruped animals from images. Our dataset contains significantly more keypoints per animal and has much more diverse animals than the existing datasets for animal keypoint detection. We benchmarked the dataset with a state-of-the-art deep learning model for different keypoint detection tasks, including both seen and unseen animal cases. Experimental results showed the effectiveness of the dataset. We believe that this dataset will help the computer vision community in the design and evaluation of improved models for the generalized quadruped animal keypoint detection problem.
翻訳日:2021-09-01 16:38:16 公開日:2021-08-31
# (参考訳) thermostat: nlpモデルの説明と分析ツールの大規模なコレクション [全文訳有]

Thermostat: A Large Collection of NLP Model Explanations and Analysis Tools ( http://arxiv.org/abs/2108.13961v1 )

ライセンス: CC BY 4.0
Nils Feldhus, Robert Schwarzenberg, Sebastian M\"oller(参考訳) 言語領域では、他の領域と同様に、神経説明可能性(neural explanationability)がより重要な役割を果たす。 このような手法の多くは、実装の詳細とパラメータの選択についてかなりの計算資源と専門知識を必要とする。 研究を容易にするために,多数のモデル説明と付随する分析ツールからなるサーモスタットを提案する。 Thermostatは、さまざまなNLPタスクにまたがる最先端モデルの決定に対して、複数の説明者が生成する200万以上の説明に簡単にアクセスできる。 データセットはコンパイルに10kgpu時間(→1年)を要し、コミュニティが節約した計算時間を計算した。 付随するソフトウェアツールは、説明をインスタンスごとに分析できるが、コーパスレベルでは累積的でもある。 実装の詳細を整理することなく、モデルやデータセット、説明器を調べて比較することができる。 Thermostatは完全にオープンソースで、言語領域における説明可能性の研究を民主化し、冗長な計算を回避し、互換性と複製性を高める。

In the language domain, as in other domains, neural explainability takes an ever more important role, with feature attribution methods on the forefront. Many such methods require considerable computational resources and expert knowledge about implementation details and parameter choices. To facilitate research, we present Thermostat which consists of a large collection of model explanations and accompanying analysis tools. Thermostat allows easy access to over 200k explanations for the decisions of prominent state-of-the-art models spanning across different NLP tasks, generated with multiple explainers. The dataset took over 10k GPU hours (> one year) to compile; compute time that the community now saves. The accompanying software tools allow to analyse explanations instance-wise but also accumulatively on corpus level. Users can investigate and compare models, datasets and explainers without the need to orchestrate implementation details. Thermostat is fully open source, democratizes explainability research in the language domain, circumvents redundant computations and increases comparability and replicability.
翻訳日:2021-09-01 16:14:57 公開日:2021-08-31
# (参考訳) DepthTrack : RGBDトラッカーのパワーを解放する [全文訳有]

DepthTrack : Unveiling the Power of RGBD Tracking ( http://arxiv.org/abs/2108.13962v1 )

ライセンス: CC BY 4.0
Song Yan, Jinyu Yang, Jani K\"apyl\"a, Feng Zheng, Ale\v{s} Leonardis, Joni-Kristian K\"am\"ar\"ainen(参考訳) RGBD(RGB+深度)オブジェクトトラッキングは、ロボットなど多くのアプリケーション分野でRGBDセンサが普及するにつれ、勢いを増しているが、RGBDトラッカーは最先端の深度RGBトラッカーの拡張である。 それらはRGBデータでトレーニングされ、ディープチャネルは閉塞検出などの微妙な部分のサイドキックとして使用される。 このことは,1)深度トラッカーの訓練に十分なRGBDデータセットが存在しないこと,2)深度キューが不可欠であるシーケンスでRGBトラッカーに挑戦することが説明できる。 これは、既存のデータセットの2倍のシーケンス(200)とシーンタイプ(40)、そして3倍のオブジェクト(90)を持つ深さ追跡である。 さらに、シーケンスの平均長(1473)、変形可能なオブジェクト数(16)、アノテーション付きトラッキング属性数(15)も増加している。 さらに,sata rgb と rgbd トラッカーを depthtrack 上で実行することにより,新しい rgbd トラッキングベースラインである det を提案する。 コードとデータセットはhttps://github.com/x iaozai/detで入手できる。

RGBD (RGB plus depth) object tracking is gaining momentum as RGBD sensors have become popular in many application fields such as robotics.However, the best RGBD trackers are extensions of the state-of-the-art deep RGB trackers. They are trained with RGB data and the depth channel is used as a sidekick for subtleties such as occlusion detection. This can be explained by the fact that there are no sufficiently large RGBD datasets to 1) train deep depth trackers and to 2) challenge RGB trackers with sequences for which the depth cue is essential. This work introduces a new RGBD tracking dataset - Depth-Track - that has twice as many sequences (200) and scene types (40) than in the largest existing dataset, and three times more objects (90). In addition, the average length of the sequences (1473), the number of deformable objects (16) and the number of annotated tracking attributes (15) have been increased. Furthermore, by running the SotA RGB and RGBD trackers on DepthTrack, we propose a new RGBD tracking baseline, namely DeT, which reveals that deep RGBD tracking indeed benefits from genuine training data. The code and dataset is available at https://github.com/x iaozai/DeT
翻訳日:2021-09-01 16:02:03 公開日:2021-08-31
# (参考訳) 部分観測マルコフ決定過程(POMDP)の近似法

Approximation Methods for Partially Observed Markov Decision Processes (POMDPs) ( http://arxiv.org/abs/2108.13965v1 )

ライセンス: CC BY 4.0
Caleb M. Bowyer(参考訳) POMDPは、真の基底状態が外部のオブザーバに完全には知られていないシステムにおいて有用なモデルであり、外部のオブザーバはシステムの真の状態を不完全に知っており、真のシステム状態のノイズのあるバージョンを観測する。 系状態の数が pomdp において大きい場合、制御の最適解を得るのに近似法を用いることがしばしば必要となる。 この調査は有限状態POMDPの起源、理論、近似を中心にしている。 POMDPを理解するためには、 \autoref{mdp} における有限状態マルコフ決定過程 (MDPs) と \autoref{hmm} における隠れマルコフモデル (HMMs) を理解する必要がある。 本論では,PMDP と HMM についてのみ本質的な詳細を述べるとともに,PMDP のメイントピックに飛び込む前に,教科書処理に長い解説を残している。 必要なバックグラウンドがカバーされると、POMDPは \autoref{pomdp} に導入される。 POMDPの起源は古典的な論文のセクション \autoref{classical} で説明されている。 計算量の高い要求が厳密な方法論的観点から理解されると、主な近似法は \autoref{approximations} で調査される。 次に、私は調査を \autoref{conclusion} で新しい研究の方向性で終える。

POMDPs are useful models for systems where the true underlying state is not known completely to an outside observer; the outside observer incompletely knows the true state of the system, and observes a noisy version of the true system state. When the number of system states is large in a POMDP that often necessitates the use of approximation methods to obtain near optimal solutions for control. This survey is centered around the origins, theory, and approximations of finite-state POMDPs. In order to understand POMDPs, it is required to have an understanding of finite-state Markov Decision Processes (MDPs) in \autoref{mdp} and Hidden Markov Models (HMMs) in \autoref{hmm}. For this background theory, I provide only essential details on MDPs and HMMs and leave longer expositions to textbook treatments before diving into the main topics of POMDPs. Once the required background is covered, the POMDP is introduced in \autoref{pomdp}. The origins of the POMDP are explained in the classical papers section \autoref{classical}. Once the high computational requirements are understood from the exact methodological point of view, the main approximation methods are surveyed in \autoref{approximations}. Then, I end the survey with some new research directions in \autoref{conclusion}.
翻訳日:2021-09-01 15:46:12 公開日:2021-08-31
# (参考訳) スパース, 不均一試料からのシックル細胞病における痛覚動態のクラスタリング [全文訳有]

Clustering of Pain Dynamics in Sickle Cell Disease from Sparse, Uneven Samples ( http://arxiv.org/abs/2108.13963v1 )

ライセンス: CC BY 4.0
Gary K. Nave Jr., Swati Padhee, Amanuel Alambo, Tanvi Banerjee, Nirmish Shah, Daniel M. Abrams(参考訳) 不規則にサンプリングされた時系列データは様々な分野で一般的である。 この場合、データから洞察を引き出す典型的な方法は失敗する。 本稿では,軌道のクラスタリング手法を不規則かつ疎サンプルデータに一般化する。 まず,合成データセットを構築し,スペクトルクラスタリングの適用を可能にするために,データアライメントの4つの手法を提案し評価する。 また、モバイルアプリを通じて、痛みの主観的な経験を数ヶ月にわたって追跡した患者の医療記録から得られた実際のデータについても、同じプロセスを繰り返す。 不規則にサンプリングされたスパースデータセットを整列させる異なる手法は、既知の性質を持つ合成データであっても、クラスタの最適な数に繋がる可能性がある。 シックル細胞病の場合、3つのクラスターが合理的な選択であり、(1)急性痛を伴う低痛群、(2)低痛度から高痛度に変動する中程度の平均痛みを経験する群、(3)持続的な高痛みを経験する群に対応していると考えられる。 今回の結果は,医師や患者が患者の痛みレベルをより深く理解し,管理するのに役立つかもしれない。

Irregularly sampled time series data are common in a variety of fields. Many typical methods for drawing insight from data fail in this case. Here we attempt to generalize methods for clustering trajectories to irregularly and sparsely sampled data. We first construct synthetic data sets, then propose and assess four methods of data alignment to allow for application of spectral clustering. We also repeat the same process for real data drawn from medical records of patients with sickle cell disease -- patients whose subjective experiences of pain were tracked for several months via a mobile app. We find that different methods for aligning irregularly sampled sparse data sets can lead to different optimal numbers of clusters, even for synthetic data with known properties. For the case of sickle cell disease, we find that three clusters is a reasonable choice, and these appear to correspond to (1) a low pain group with occasionally acute pain, (2) a group which experiences moderate mean pain that fluctuates often from low to high, and (3) a group that experiences persistent high levels of pain. Our results may help physicians and patients better understand and manage patients' pain levels over time, and we expect that the methods we develop will apply to a wide range of other data sources in medicine and beyond.
翻訳日:2021-09-01 15:44:19 公開日:2021-08-31
# (参考訳) Realistic Hands: 3Dハンドコンストラクションのためのハイブリッドモデル [全文訳有]

Realistic Hands: A Hybrid Model for 3D Hand Reconstruction ( http://arxiv.org/abs/2108.13995v1 )

ライセンス: CC BY 4.0
Michael Seeber, Martin R. Oswald, Roi Poranne(参考訳) rgb画像からロバストに3dハンドメッシュを推定することは非常に望ましい作業であり、多くの自由度と自己の類似性やオクルージョンなどの問題のために課題となった。 従来の方法は、パラメトリック3dハンドモデルを使うか、モデルフリーのアプローチに従う。 前者はより堅牢であると見なすことができる。 排他的に 表現力は低いのです 本稿では,ディープニューラルネットワークと差分レンダリングに基づく最適化を用いて,両世界のベストを実証的に達成するハイブリッド手法を提案する。 さらに,仮想現実(vr)をアプリケーションとして検討する。 ほとんどのvrヘッドセットは、現在複数のカメラを搭載しており、これをエゴセントリックステレオドメインに拡張することで活用することができる。 この拡張は上記の問題に対してより回復力があることを証明している。 最後に, 改良された画像モデルアライメントを用いて, ユーザの手のテクスチャを取得することで, より現実的な仮想手表現を実現することを示す。

Estimating 3D hand meshes from RGB images robustly is a highly desirable task, made challenging due to the numerous degrees of freedom, and issues such as self similarity and occlusions. Previous methods generally either use parametric 3D hand models or follow a model-free approach. While the former can be considered more robust, e.g. to occlusions, they are less expressive. We propose a hybrid approach, utilizing a deep neural network and differential rendering based optimization to demonstrably achieve the best of both worlds. In addition, we explore Virtual Reality (VR) as an application. Most VR headsets are nowadays equipped with multiple cameras, which we can leverage by extending our method to the egocentric stereo domain. This extension proves to be more resilient to the above mentioned issues. Finally, as a use-case, we show that the improved image-model alignment can be used to acquire the user's hand texture, which leads to a more realistic virtual hand representation.
翻訳日:2021-09-01 15:24:52 公開日:2021-08-31
# (参考訳) s4-crowd:自己教師付き正規化による半教師付き学習

S4-Crowd: Semi-Supervised Learning with Self-Supervised Regularisation for Crowd Counting ( http://arxiv.org/abs/2108.13969v1 )

ライセンス: CC BY 4.0
Haoran Duan and Yu Guan(参考訳) スマートシティーに広く応用されているため、群衆数に注目が集まっている。 最近の研究は有望なパフォーマンスを達成したが、高価な群衆アノテーションで監督されたパラダイムに依存していた。 アノテーションコストを軽減するため,本研究では,教師なしデータとラベル付きデータの両方を有効活用し,頑健なクラウドモデリングを実現する半教師付き学習フレームワークs4-crowdを提案する。 教師なし経路では, 規模, 照明等の群集変動を模擬する2つの自己監督的損失が提案され, 教師付き情報擬似ラベルが生成され, 徐々に洗練されていく。 また, 2次統計を抽出し, 質を向上した擬似ラベルを生成することにより, 差別的な群集情報を保存できる群集駆動リカレントユニットGated-Crowd-Recurren t-Unit (GCRU) を提案した。 教師なし/教師なしの情報を含む共同損失が提案され、異なる訓練段階における教師なし損失と教師なし損失の重要性のバランスをとるために動的重み付け戦略が採用された。 半教師付き環境では4つの人気データセットを広範囲に実験した。 実験の結果,S4-Crowdフレームワークにおける各コンポーネントの有効性が示唆された。 また,この手法は群集データセットにおいて,他の最先端の半教師付き学習手法よりも優れていた。

Crowd counting has drawn more attention because of its wide application in smart cities. Recent works achieved promising performance but relied on the supervised paradigm with expensive crowd annotations. To alleviate annotation cost, in this work we proposed a semi-supervised learning framework S4-Crowd, which can leverage both unlabeled/labeled data for robust crowd modelling. In the unsupervised pathway, two self-supervised losses were proposed to simulate the crowd variations such as scale, illumination, etc., based on which and the supervised information pseudo labels were generated and gradually refined. We also proposed a crowd-driven recurrent unit Gated-Crowd-Recurren t-Unit (GCRU), which can preserve discriminant crowd information by extracting second-order statistics, yielding pseudo labels with improved quality. A joint loss including both unsupervised/supervi sed information was proposed, and a dynamic weighting strategy was employed to balance the importance of the unsupervised loss and supervised loss at different training stages. We conducted extensive experiments on four popular crowd counting datasets in semi-supervised settings. Experimental results suggested the effectiveness of each proposed component in our S4-Crowd framework. Our method also outperformed other state-of-the-art semi-supervised learning approaches on these crowd datasets.
翻訳日:2021-09-01 15:08:51 公開日:2021-08-31
# (参考訳) 効果的なシーケンス間対話状態追跡 [全文訳有]

Effective Sequence-to-Sequence Dialogue State Tracking ( http://arxiv.org/abs/2108.13990v1 )

ライセンス: CC BY 4.0
Jeffrey Zhao, Mahdis Mahdieh, Ye Zhang, Yuan Cao, Yonghui Wu(参考訳) シーケンス・トゥ・シーケンスモデルは様々なnlpタスクに適用されてきたが、対話状態追跡にどのように適切に利用するかは体系的に検討されていない。 本稿では,事前学習対象と文脈表現の形式の観点から,この問題を考察する。 我々は,事前学習目標の選択が状態追跡品質に重大な影響を与えることを実証する。 特に,マスク付きスパン予測は自動回帰言語モデリングよりも効果的であることがわかった。 また、状態追跡モデルにおけるテキスト要約のための予測に基づく事前学習目的であるPegasusについても検討する。 対話状態の追跡には,一見遠くの要約タスクの事前学習が驚くほど有効であることがわかった。 さらに、リカレント状態のコンテキスト表現も合理的に機能する一方で、モデルが以前のミスから回復するのに苦労していることも分かりました。 我々は一貫した観測でMultiWOZ 2.1-2.4データセットの実験を行った。

Sequence-to-sequence models have been applied to a wide variety of NLP tasks, but how to properly use them for dialogue state tracking has not been systematically investigated. In this paper, we study this problem from the perspectives of pre-training objectives as well as the formats of context representations. We demonstrate that the choice of pre-training objective makes a significant difference to the state tracking quality. In particular, we find that masked span prediction is more effective than auto-regressive language modeling. We also explore using Pegasus, a span prediction-based pre-training objective for text summarization, for the state tracking model. We found that pre-training for the seemingly distant summarization task works surprisingly well for dialogue state tracking. In addition, we found that while recurrent state context representation works also reasonably well, the model may have a hard time recovering from earlier mistakes. We conducted experiments on the MultiWOZ 2.1-2.4 data sets with consistent observations.
翻訳日:2021-09-01 15:02:37 公開日:2021-08-31
# 離散データに基づく因果発見のためのサブサンプリング手法

A Subsampling Based Method for Causal Discovery on Discrete Data ( http://arxiv.org/abs/2108.13984v1 )

ライセンス: Link先を確認
Austin Goddard and Yu Xiang(参考訳) 離散的および分類的データに対する因果方向の推測は重要な問題であるが、難しい問題である。 付加雑音モデル(anms)アプローチは離散データに適用することができるが、関数構造仮定は分類データには適用できない。 原因とメカニズムは独立であるという原則に触発され、距離相関尺度などの独立性テストを利用して様々な方法が開発されている。 本研究では,別の視点から,原因の生成スキームとメカニズムの独立性をテストするサブサンプリング方式を提案する。 我々の手法は、離散データと分類データの両方で機能し、データ上の機能的モデルを含まないため、より柔軟なアプローチである。 本手法の有効性を示すため,様々な合成データや実データ実験において既存のベースラインと比較した。

Inferring causal directions on discrete and categorical data is an important yet challenging problem. Even though the additive noise models (ANMs) approach can be adapted to the discrete data, the functional structure assumptions make it not applicable on categorical data. Inspired by the principle that the cause and mechanism are independent, various methods have been developed, leveraging independence tests such as the distance correlation measure. In this work, we take an alternative perspective and propose a subsampling-based method to test the independence between the generating schemes of the cause and that of the mechanism. Our methodology works for both discrete and categorical data and does not imply any functional model on the data, making it a more flexible approach. To demonstrate the efficacy of our methodology, we compare it with existing baselines over various synthetic data and real data experiments.
翻訳日:2021-09-01 14:40:49 公開日:2021-08-31
# ドメイン一般化のための自己均衡学習

Self-balanced Learning For Domain Generalization ( http://arxiv.org/abs/2108.13597v1 )

ライセンス: Link先を確認
Jin Kim, Jiyoung Lee, Jungin Park, Dongbo Min, Kwanghoon Sohn(参考訳) ドメインの一般化は、モデルが未知の統計量を持つ対象領域に一般化できるような、マルチドメインのソースデータに対する予測モデルを学ぶことを目的としている。 既存のアプローチの多くは、ソースデータがドメインとクラスの両方でバランスが取れているという仮定の下で開発されている。 しかし、異なる構成バイアスで収集された実世界のトレーニングデータは、しばしばドメインとクラスに厳しい分散ギャップを示し、パフォーマンスが大幅に低下する。 本稿では,損失の重みを適応的に学習し,マルチドメインソースデータの分布の違いによるバイアスを軽減する自己均衡型ドメイン一般化フレームワークを提案する。 自己均衡スキームは、バランスのとれたメタデータを利用して、ドメインとクラス情報に基づいて条件付けされた損失の重みを反復的に更新する補助的重み付けネットワークに基づいている。 実験により,本手法がドメイン一般化に有効であることを示す。

Domain generalization aims to learn a prediction model on multi-domain source data such that the model can generalize to a target domain with unknown statistics. Most existing approaches have been developed under the assumption that the source data is well-balanced in terms of both domain and class. However, real-world training data collected with different composition biases often exhibits severe distribution gaps for domain and class, leading to substantial performance degradation. In this paper, we propose a self-balanced domain generalization framework that adaptively learns the weights of losses to alleviate the bias caused by different distributions of the multi-domain source data. The self-balanced scheme is based on an auxiliary reweighting network that iteratively updates the weight of loss conditioned on the domain and class information by leveraging balanced meta data. Experimental results demonstrate the effectiveness of our method overwhelming state-of-the-art works for domain generalization.
翻訳日:2021-09-01 14:40:35 公開日:2021-08-31
# SemIE:Semantically-a ware Image Extrapolation

SemIE: Semantically-aware Image Extrapolation ( http://arxiv.org/abs/2108.13702v1 )

ライセンス: Link先を確認
Bholeshwar Khurana, Soumya Ranjan Dash, Abhishek Bhatia, Aniruddha Mahapatra, Hrituraj Singh, Kuldeep Kulkarni(参考訳) 本稿では,新しいオブジェクトインスタンスの追加を可能にする画像外挿を行うための,意味論的に認識する新しいパラダイムを提案する。 以前のすべてのメソッドは、画像にすでに存在するオブジェクトを拡張するだけで、外挿の能力に制限がある。 しかし、提案手法では、(i)既に存在するオブジェクトを拡張するだけでなく(ii)コンテキストに基づいた拡張領域に新しいオブジェクトを追加することに焦点を当てている。 この目的のために、与えられた画像に対して、まず、最先端意味セグメンテーション法を用いた対象セグメンテーションマップを得る。 これにより、得られたセグメンテーションマップをネットワークに入力し、外挿されたセグメンテーションと対応するパノプティックセグメンテーションマップを算出する。 さらに入力画像と得られたセグメンテーションマップを利用して最終的な外挿画像を生成する。 我々は,都市景観とade20kベッドルームデータセットについて実験を行い,fidの点では全てのベースラインを上回り,オブジェクト共起統計では類似性を示す。

We propose a semantically-aware novel paradigm to perform image extrapolation that enables the addition of new object instances. All previous methods are limited in their capability of extrapolation to merely extending the already existing objects in the image. However, our proposed approach focuses not only on (i) extending the already present objects but also on (ii) adding new objects in the extended region based on the context. To this end, for a given image, we first obtain an object segmentation map using a state-of-the-art semantic segmentation method. The, thus, obtained segmentation map is fed into a network to compute the extrapolated semantic segmentation and the corresponding panoptic segmentation maps. The input image and the obtained segmentation maps are further utilized to generate the final extrapolated image. We conduct experiments on Cityscapes and ADE20K-bedroom datasets and show that our method outperforms all baselines in terms of FID, and similarity in object co-occurrence statistics.
翻訳日:2021-09-01 14:40:19 公開日:2021-08-31
# InSeGAN: 深部画像におけるIdentical Instanceのセグメンテーションのための生成的アプローチ

InSeGAN: A Generative Approach to Segmenting Identical Instances in Depth Images ( http://arxiv.org/abs/2108.13865v1 )

ライセンス: Link先を確認
Anoop Cherian and Goncalo Dias Pais and Siddarth Jain and Tim K. Marks and Alan Sullivan(参考訳) 本稿では,奥行き画像における剛体物体の同一インスタンスをセグメント化するための教師なし3次元生成逆ネットワーク (gan) であるinseganを提案する。 解析・合成手法を用いて,各インスタンスを独立制御した複数インスタンス深度画像の合成を行う新しいGANアーキテクチャを設計する。 InSeGANは一連のコードベクトル(例えばランダムノイズベクトル)を持ち、それぞれが学習された暗黙のオブジェクトテンプレートで表されるオブジェクトの3Dポーズを符号化する。 ジェネレータには2つの異なるモジュールがある。 最初のモジュールであるインスタンス機能ジェネレータは、各エンコードされたポーズを使用して、暗黙のテンプレートを各オブジェクトインスタンスのフィーチャーマップ表現に変換する。 第2のモジュールである深度画像レンダラは、第1のモジュールが出力するシングルインテンス特徴マップをすべて集約し、マルチインテンス深度画像を生成する。 判別器は、生成した多重インスタンス深度画像と真深度画像の分布とを区別する。 このモデルをセグメンテーションに利用するために、生成された深度画像を取り込んで、すべてのオブジェクトインスタンスに対してポーズコードベクトルを再現することを学ぶインスタンスポーズエンコーダを提案する。 このアプローチを評価するために、10万の深さ画像からなる新しい合成データセット「insta-10」を導入し、それぞれが10クラスのうちの1つのオブジェクトの5つのインスタンスからなる。 Insta-10および実世界の雑音深度画像を用いた実験により、InSeGANは最先端の性能を達成し、多くの場合、先行手法よりも大きなマージンで優れていることが示された。

In this paper, we present InSeGAN, an unsupervised 3D generative adversarial network (GAN) for segmenting (nearly) identical instances of rigid objects in depth images. Using an analysis-by-synthesi s approach, we design a novel GAN architecture to synthesize a multiple-instance depth image with independent control over each instance. InSeGAN takes in a set of code vectors (e.g., random noise vectors), each encoding the 3D pose of an object that is represented by a learned implicit object template. The generator has two distinct modules. The first module, the instance feature generator, uses each encoded pose to transform the implicit template into a feature map representation of each object instance. The second module, the depth image renderer, aggregates all of the single-instance feature maps output by the first module and generates a multiple-instance depth image. A discriminator distinguishes the generated multiple-instance depth images from the distribution of true depth images. To use our model for instance segmentation, we propose an instance pose encoder that learns to take in a generated depth image and reproduce the pose code vectors for all of the object instances. To evaluate our approach, we introduce a new synthetic dataset, "Insta-10", consisting of 100,000 depth images, each with 5 instances of an object from one of 10 classes. Our experiments on Insta-10, as well as on real-world noisy depth images, show that InSeGAN achieves state-of-the-art performance, often outperforming prior methods by large margins.
翻訳日:2021-09-01 14:40:00 公開日:2021-08-31
# 自然言語生成のためのタスク指向対話システム

Task-Oriented Dialogue System as Natural Language Generation ( http://arxiv.org/abs/2108.13679v1 )

ライセンス: Link先を確認
Weizhi Wang, Zhirui Zhang, Junliang Guo, Boxing Chen and Weihua Luo(参考訳) 本稿では,GPT-2のような大規模事前学習モデルを完全に活用するために,タスク指向対話システムを純粋に自然言語生成タスクとして定式化することを提案する。 しかし,本手法の直接適用は,デレクシカル化トークンの除去による対話エンティティの不整合や,微調整中の事前学習モデルの破滅的な忘れ問題に大きく悩まされ,不満足な性能をもたらす。 これらの問題を緩和するために,軽量アダプタとCopyNetモジュールをGPT-2に組み込んだ新しいGPT-Adapter-CopyNetネットワークを設計し,転送学習と対話エンティティ生成の性能向上を実現した。 DSTC8 Track 1ベンチマークとMultiWOZデータセットを用いて行った実験結果から,提案手法はベースラインモデルよりも優れた性能を示し,自動評価と人的評価に優れた性能を示した。

In this paper, we propose to formulate the task-oriented dialogue system as the purely natural language generation task, so as to fully leverage the large-scale pre-trained models like GPT-2 and simplify complicated delexicalization prepossessing. However, directly applying this method heavily suffers from the dialogue entity inconsistency caused by the removal of delexicalized tokens, as well as the catastrophic forgetting problem of the pre-trained model during fine-tuning, leading to unsatisfactory performance. To alleviate these problems, we design a novel GPT-Adapter-CopyNet network, which incorporates the lightweight adapter and CopyNet modules into GPT-2 to achieve better performance on transfer learning and dialogue entity generation. Experimental results conducted on the DSTC8 Track 1 benchmark and MultiWOZ dataset demonstrate that our proposed approach significantly outperforms baseline models with a remarkable performance on automatic and human evaluations.
翻訳日:2021-09-01 14:39:17 公開日:2021-08-31
# ベトナム語抽出多文書要約のための単言語対多言語BERTology

Monolingual versus Multilingual BERTology for Vietnamese Extractive Multi-Document Summarization ( http://arxiv.org/abs/2108.13741v1 )

ライセンス: Link先を確認
Huy To Quoc, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, Anh Gia-Tuan Nguyen(参考訳) 近年の研究では、BERTは幅広い自然言語処理タスクの可能性を示している。 多くの最先端自動要約システムのエンコーダとして採用され、優れた性能を発揮する。 しかし、今のところベトナムではほとんど行われていない。 本稿では,ベトナムにおける抽出テキスト要約のためのBERTの実装について述べる。 本稿では,多言語モデルと単言語モデルの比較を行った。 実験の結果,単言語モデルは他の多言語モデルやベトナム語用テキスト要約モデルと比較して有望な結果が得られた。

Recent researches have demonstrated that BERT shows potential in a wide range of natural language processing tasks. It is adopted as an encoder for many state-of-the-art automatic summarizing systems, which achieve excellent performance. However, so far, there is not much work done for Vietnamese. In this paper, we showcase how BERT can be implemented for extractive text summarization in Vietnamese. We introduce a novel comparison between different multilingual and monolingual BERT models. The experiment results indicate that monolingual models produce promising results compared to other multilingual models and previous text summarizing models for Vietnamese.
翻訳日:2021-09-01 14:38:58 公開日:2021-08-31
# The Five Is: 会話AIの解釈と安全性のための重要な原則

The five Is: Key principles for interpretable and safe conversational AI ( http://arxiv.org/abs/2108.13766v1 )

ライセンス: Link先を確認
Mattias Wahde and Marco Virgolin(参考訳) 本稿では,現在普及しているブラックボックスアプローチとは異なり,透明性と説明責任を有する会話型AIの開発において,解釈可能性,独立データの説明能力,対話型学習能力,質問応答性という5つの重要な原則を提案する。 現在、ブラックボックス統計言語モデルの使用に対する懸念が高まっている: 印象的な平均的なパフォーマンスを示す一方で、そのようなシステムは時として目覚ましい失敗を招き、明確な修正は行われない。 代替案に関する議論を開始するために、我々は5つの原則を概説し、どのようにして透明で使用しやすい会話型aiシステムの開発を可能にするかを例証する。 また、これらの原則の実装に固有の課題をいくつか提示する。

In this position paper, we present five key principles, namely interpretability, inherent capability to explain, independent data, interactive learning, and inquisitiveness, for the development of conversational AI that, unlike the currently popular black box approaches, is transparent and accountable. At present, there is a growing concern with the use of black box statistical language models: While displaying impressive average performance, such systems are also prone to occasional spectacular failures, for which there is no clear remedy. In an effort to initiate a discussion on possible alternatives, we outline and exemplify how our five principles enable the development of conversational AI systems that are transparent and thus safer for use. We also present some of the challenges inherent in the implementation of those principles.
翻訳日:2021-09-01 14:38:47 公開日:2021-08-31
# 限定テキストコーパスを用いた質問応答に対するコントラスト的ドメイン適応

Contrastive Domain Adaptation for Question Answering using Limited Text Corpora ( http://arxiv.org/abs/2108.13854v1 )

ライセンス: Link先を確認
Zhenrui Yue, Bernhard Kratzwald, Stefan Feuerriegel(参考訳) 質問生成は、最近、新しいドメインに質問応答(qa)システムをカスタマイズする素晴らしい結果を示している。 これらのアプローチは、新しいドメインから手動でアノテートされたトレーニングデータの必要性を回避し、代わりにトレーニングに使用される合成質問応答ペアを生成する。 しかし、既存の質問生成手法は、大量の合成データセットとコストのかかる計算資源に依存しており、テキストコーパスが限られたサイズであれば、これらの技術は広くアクセスできない。 多くのニッチドメインが小さなテキストコーパスに依存しており、生成可能な合成データの量を自然に制限しているため、これは問題である。 本稿では,CAQA(Contrative Domain adapt for QA)という,ドメイン適応のための新しいフレームワークを提案する。 特に、CAQAは、質問生成とドメイン不変学習の技法を組み合わせて、限られたテキストコーパスでドメイン外質問に答える。 ここでは、トレーニング目的に組み込まれた対照的な適応損失で、ソースデータとターゲットドメインから生成されたデータの両方に基づいて、QAシステムをトレーニングする。 質問生成とドメイン不変学習の技法を組み合わせることで、我々のモデルは最先端のベースラインに比べて大幅に改善された。

Question generation has recently shown impressive results in customizing question answering (QA) systems to new domains. These approaches circumvent the need for manually annotated training data from the new domain and, instead, generate synthetic question-answer pairs that are used for training. However, existing methods for question generation rely on large amounts of synthetically generated datasets and costly computational resources, which render these techniques widely inaccessible when the text corpora is of limited size. This is problematic as many niche domains rely on small text corpora, which naturally restricts the amount of synthetic data that can be generated. In this paper, we propose a novel framework for domain adaptation called contrastive domain adaptation for QA (CAQA). Specifically, CAQA combines techniques from question generation and domain-invariant learning to answer out-of-domain questions in settings with limited text corpora. Here, we train a QA system on both source data and generated data from the target domain with a contrastive adaptation loss that is incorporated in the training objective. By combining techniques from question generation and domain-invariant learning, our model achieved considerable improvements compared to state-of-the-art baselines.
翻訳日:2021-09-01 14:38:34 公開日:2021-08-31
# mMARCO:MS MARCOパスランキングデータセットの多言語版

mMARCO: A Multilingual Version of MS MARCO Passage Ranking Dataset ( http://arxiv.org/abs/2108.13897v1 )

ライセンス: Link先を確認
Luiz Henrique Bonifacio, Israel Campiotti, Roberto Lotufo, Rodrigo Nogueira(参考訳) MS MARCOランキングデータセットは、赤外線タスクのディープラーニングモデルのトレーニングに広く使われており、多様なゼロショットシナリオでかなりの効果が得られている。 しかし、この種の資源は英語以外の言語では希少である。 本研究では,機械翻訳を用いて作成した8言語からなるMS MARCOパスランキングデータセットの多言語版であるmMARCOを提案する。 単言語モデルと多言語モデルによるmMARCOの評価を行った。 実験結果から,翻訳データセットに微調整された多言語モデルの方が,原英語版のみに微調整されたモデルよりも優れた効果が得られた。 また, 蒸留した多言語再発酵剤は, 5.4 倍のパラメータを持つ非蒸留モデルと競合する。 翻訳されたデータセットと微調整されたモデルはhttps://github.com/u nicamp-dl/mMARCO.git で入手できる。

The MS MARCO ranking dataset has been widely used for training deep learning models for IR tasks, achieving considerable effectiveness on diverse zero-shot scenarios. However, this type of resource is scarce in other languages than English. In this work we present mMARCO, a multilingual version of the MS MARCO passage ranking dataset comprising 8 languages that was created using machine translation. We evaluated mMARCO by fine-tuning mono and multilingual re-ranking models on it. Experimental results demonstrate that multilingual models fine-tuned on our translated dataset achieve superior effectiveness than models fine-tuned on the original English version alone. Also, our distilled multilingual re-ranker is competitive with non-distilled models while having 5.4 times fewer parameters. The translated datasets as well as fine-tuned models are available at https://github.com/u nicamp-dl/mMARCO.git .
翻訳日:2021-09-01 14:38:15 公開日:2021-08-31
# PACE: ポストホックアーキテクチャ-CNNの説明のための非依存概念エクストラクタ

PACE: Posthoc Architecture-Agnosti c Concept Extractor for Explaining CNNs ( http://arxiv.org/abs/2108.13828v1 )

ライセンス: Link先を確認
Vidhya Kamakshi, Uday Gupta and Narayanan C Krishnan(参考訳) ディープCNNは、画像分類タスクにおけるアートパフォーマンスの状態を達成しているが、それを用いた人間のブラックボックスのままである。 信頼度を改善するために、これらの深層モデルの作業を説明することへの関心が高まっている。 本稿では,ブラックボックス予測に関連する概念と呼ばれる,画像の小さな部分領域を自動的に抽出するPosthoc Architecture-Agnosti c Concept Extractor (PACE)を提案する。 PACEは、説明フレームワークの忠実さをブラックボックスモデルに密に統合する。 私たちの知る限りでは、これはクラス固有の差別概念をポストホックな方法で自動的に抽出する最初の作品です。 PACEフレームワークは、AWA2とImagenet-Birdsデータセットの分類のために訓練された2つの異なるCNNアーキテクチャの説明を生成するために使用される。 PACEによって抽出された説明の人間の解釈可能性と一貫性を検証するために、広範囲にわたる人体実験を行った。 これらの実験の結果、PACEによって抽出された概念の72%以上が人間の解釈可能であることが示唆された。

Deep CNNs, though have achieved the state of the art performance in image classification tasks, remain a black-box to a human using them. There is a growing interest in explaining the working of these deep models to improve their trustworthiness. In this paper, we introduce a Posthoc Architecture-agnosti c Concept Extractor (PACE) that automatically extracts smaller sub-regions of the image called concepts relevant to the black-box prediction. PACE tightly integrates the faithfulness of the explanatory framework to the black-box model. To the best of our knowledge, this is the first work that extracts class-specific discriminative concepts in a posthoc manner automatically. The PACE framework is used to generate explanations for two different CNN architectures trained for classifying the AWA2 and Imagenet-Birds datasets. Extensive human subject experiments are conducted to validate the human interpretability and consistency of the explanations extracted by PACE. The results from these experiments suggest that over 72% of the concepts extracted by PACE are human interpretable.
翻訳日:2021-09-01 14:38:04 公開日:2021-08-31
# midogチャレンジのための融合検出器と深層アンサンブル分類モデルによるドメインシフトに対するmitosisの検出

Detecting Mitosis against Domain Shift using a Fused Detector and Deep Ensemble Classification Model for MIDOG Challenge ( http://arxiv.org/abs/2108.13983v1 )

ライセンス: Link先を確認
Jingtang Liang, Cheng Wang, Yujie Cheng, Zheng Wang, Fang Wang, Liyu Huang, Zhibin Yu, Yubo Wang(参考訳) 組織像は腫瘍増殖の重要なマーカーであり、患者の予後に関連があることが示されている。 ヘマトキシリン \&エオシン(h\&e)染色画像を用いて、深層学習に基づく分裂図検出法を用いてmitosisの細胞を自動的に同定する。 しかし,H&E画像における色調と強度の大きな変化により,モデル性能は低下する。 本研究では,検出器と深層アンサンブル分類モデルを融合させて2段階のミトティック図形検出フレームワークを提案する。 h\&e画像における色変化の影響を緩和するために,染色正規化とデータ拡張を併用し,色無関係な特徴の学習を支援する。 提案モデルでは,MIDOGチャレンジでリリースした予備テストセットに対して0.7550のF1スコアを得る。

Mitotic figure count is an important marker of tumor proliferation and has been shown to be associated with patients' prognosis. Deep learning based mitotic figure detection methods have been utilized to automatically locate the cell in mitosis using hematoxylin \& eosin (H\&E) stained images. However, the model performance deteriorates due to the large variation of color tone and intensity in H\&E images. In this work, we proposed a two stage mitotic figure detection framework by fusing a detector and a deep ensemble classification model. To alleviate the impact of color variation in H\&E images, we utilize both stain normalization and data augmentation, aiding model to learn color irrelevant features. The proposed model obtains an F1 score of 0.7550 on the preliminary testing set released by the MIDOG challenge.
翻訳日:2021-09-01 14:37:45 公開日:2021-08-31
# Deep Networksは、小さなサンプルサイズでRandom Forestsより本当に優れているのか?

When are Deep Networks really better than Random Forests at small sample sizes? ( http://arxiv.org/abs/2108.13637v1 )

ライセンス: Link先を確認
Haoyin Xu, Michael Ainsworth, Yu-Chung Peng, Madi Kusmanov, Sambit Panda, Joshua T. Vogelstein(参考訳) ランダムフォレスト(rf)とディープネットワーク(dn)は、現在の科学文献において最も人気のある機械学習手法の2つであり、異なるデータモダリティで異なるレベルのパフォーマンスをもたらす。 それぞれのアプローチが優れている条件とドメイン、特にサンプルサイズと機能ディメンジョンのコンテキストをさらに探究し、確立したいと考えています。 これらの問題に対処するため、様々なモデルパラメータとアーキテクチャを用いて、表、画像、オーディオ設定にまたがってこれらのアプローチの性能を検証した。 私たちの焦点は、1万以上のサンプルを持つデータセットであり、科学および生物医学のデータセットのごく一部を表しています。 一般に、RFは小さなサンプルサイズで表や構造データ(画像と音声)に優れるが、DNはより大きなサンプルサイズで構造データに優れていた。 このテクニカルレポートの更新は今後数ヶ月にわたって継続する予定ですが、現在の予備的な結果が他の人たちにとって興味深いものと思われるのです。

Random forests (RF) and deep networks (DN) are two of the most popular machine learning methods in the current scientific literature and yield differing levels of performance on different data modalities. We wish to further explore and establish the conditions and domains in which each approach excels, particularly in the context of sample size and feature dimension. To address these issues, we tested the performance of these approaches across tabular, image, and audio settings using varying model parameters and architectures. Our focus is on datasets with at most 10,000 samples, which represent a large fraction of scientific and biomedical datasets. In general, we found RF to excel at tabular and structured data (image and audio) with small sample sizes, whereas DN performed better on structured data with larger sample sizes. Although we plan to continue updating this technical report in the coming months, we believe the current preliminary results may be of interest to others.
翻訳日:2021-09-01 14:36:53 公開日:2021-08-31
# Phy-Q:物理推論のベンチマーク

Phy-Q: A Benchmark for Physical Reasoning ( http://arxiv.org/abs/2108.13696v1 )

ライセンス: Link先を確認
Cheng Xue, Vimukthini Pinto, Chathura Gamage, Ekaterina Nikonova, Peng Zhang, Jochen Renz(参考訳) 人間は、タスクを達成するためのアクションを選択する際に、物理的なオブジェクトの振る舞いについて推論することに精通している。 この問題に対する研究を容易にするために,エージェントが物理的シナリオを判断し,それに応じて行動を起こすための新しいベンチマークを提案する。 幼児期に獲得した身体的知識と実世界環境でのロボットの動作に必要な能力に着想を得て、15の基本的な物理的シナリオを特定した。 各シナリオに対して、さまざまな異なるタスクテンプレートを作成し、同じシナリオ内のすべてのタスクテンプレートを、1つの特定の物理ルールを使用することで解決できるようにします。 このような設計により、局所一般化と広汎化という2つの異なる一般化レベルを評価する。 我々は,人間のプレーヤ,入力タイプやアーキテクチャの異なる学習エージェント,戦略の異なるヒューリスティックエージェントを用いて広範な評価を行う。 このベンチマークは、エージェントの物理的推論能力を反映したPhy-Qスコアを与える。 評価の結果,1)すべてのエージェントは人間のパフォーマンスに到達できず,2)学習エージェントは,局所的な一般化能力に優れていても,基礎となる物理推論規則を学習するのに苦労し,広く一般化できないことがわかった。 我々は、物理領域における広範な一般化能力を持つ知的エージェントの開発を奨励する。

Humans are well-versed in reasoning about the behaviors of physical objects when choosing actions to accomplish tasks, while it remains a major challenge for AI. To facilitate research addressing this problem, we propose a new benchmark that requires an agent to reason about physical scenarios and take an action accordingly. Inspired by the physical knowledge acquired in infancy and the capabilities required for robots to operate in real-world environments, we identify 15 essential physical scenarios. For each scenario, we create a wide variety of distinct task templates, and we ensure all the task templates within the same scenario can be solved by using one specific physical rule. By having such a design, we evaluate two distinct levels of generalization, namely the local generalization and the broad generalization. We conduct an extensive evaluation with human players, learning agents with varying input types and architectures, and heuristic agents with different strategies. The benchmark gives a Phy-Q (physical reasoning quotient) score that reflects the physical reasoning ability of the agents. Our evaluation shows that 1) all agents fail to reach human performance, and 2) learning agents, even with good local generalization ability, struggle to learn the underlying physical reasoning rules and fail to generalize broadly. We encourage the development of intelligent agents with broad generalization abilities in physical domains.
翻訳日:2021-09-01 14:36:34 公開日:2021-08-31
# softmaxのためのchi-square loss:ニューラルネットワーク構造のエコー

Chi-square Loss for Softmax: an Echo of Neural Network Structure ( http://arxiv.org/abs/2108.13822v1 )

ライセンス: Link先を確認
Zeyu Wang and Meiqing Wang(参考訳) クロスエントロピーを扱うソフトマックスは、2つの離散分布列(予測と真のラベル)の類似性を評価する分類において広く用いられている。 chi-square testに触発されて、私たちはchi-square lossと呼ばれる新しい損失関数を設計しました。 チ平方損失には統計的な背景がある。 我々は最適化に偏らないことを証明し、その使用条件を明確にした(its公式はラベル平滑化で動作する必要があると判断する)。 さらに,この損失関数のサンプル分布を可視化し,その分布が交叉エントロピーと異なるニューラルネットワーク構造と関連していることを確認した。 過去には、構造の影響は視覚的に無視されることが多かった。 カイ二乗損失は、非常に厳密なニューラルネットワーク構造の変化に気づく可能性があり、この厳密さの理由を説明した。 また,ラベル平滑化の影響について検討し,ラベル平滑化とトレーニング精度,安定性の関係を検討した。 chi-squareの損失は非常に厳しいため、非常に多くのクラスのサンプルを扱う場合、パフォーマンスは低下する。

Softmax working with cross-entropy is widely used in classification, which evaluates the similarity between two discrete distribution columns (predictions and true labels). Inspired by chi-square test, we designed a new loss function called chi-square loss, which is also works for Softmax. Chi-square loss has a statistical background. We proved that it is unbiased in optimization, and clarified its using conditions (its formula determines that it must work with label smoothing). In addition, we studied the sample distribution of this loss function by visualization and found that the distribution is related to the neural network structure, which is distinct compared to cross-entropy. In the past, the influence of structure was often ignored when visualizing. Chi-square loss can notice changes in neural network structure because it is very strict, and we explained the reason for this strictness. We also studied the influence of label smoothing and discussed the relationship between label smoothing and training accuracy and stability. Since the chi-square loss is very strict, the performance will degrade when dealing samples of very many classes.
翻訳日:2021-09-01 14:36:10 公開日:2021-08-31
# GRP-FED:グローバル正規化パーソナライズによるフェデレーション学習におけるクライアントの不均衡への対応

GRP-FED: Addressing Client Imbalance in Federated Learning via Global-Regularized Personalization ( http://arxiv.org/abs/2108.13858v1 )

ライセンス: Link先を確認
Yen-Hsiu Chou, Shenda Hong, Chenxi Sun, Derun Cai, Moxian Song, Hongyan Li(参考訳) データは実際には長期にわたって提示されるため、分散学習(FL)が分散クライアントを実践的なアプリケーションとして訓練することは困難である。 グローバル・レギュラライズ・パーソナライゼーション(grp-fed)を用いて,1つのグローバルモデルと各クライアントの複数のローカルモデルを考慮したデータ不均衡問題に対処する。 適応アグリゲーションでは、グローバルモデルは複数のクライアントを公平に扱い、グローバルな長期的問題を緩和する。 各ローカルモデルはローカルデータから学習され、カスタマイズのための分散と整合する。 GRP-FEDは、学習したグローバルな特徴間の規則化のために、逆微分器を適用する。 GRP-FEDは実世界のMIT-BIHとCIFAR-10データセットのグローバルシナリオとローカルシナリオの両方で改善され、同等のパフォーマンスとクライアントの不均衡に対処する。

Since data is presented long-tailed in reality, it is challenging for Federated Learning (FL) to train across decentralized clients as practical applications. We present Global-Regularized Personalization (GRP-FED) to tackle the data imbalanced issue by considering a single global model and multiple local models for each client. With adaptive aggregation, the global model treats multiple clients fairly and mitigates the global long-tailed issue. Each local model is learned from the local data and aligns with its distribution for customization. To prevent the local model from just overfitting, GRP-FED applies an adversarial discriminator to regularize between the learned global-local features. Extensive results show that our GRP-FED improves under both global and local scenarios on real-world MIT-BIH and synthesis CIFAR-10 datasets, achieving comparable performance and addressing client imbalance.
翻訳日:2021-09-01 14:35:54 公開日:2021-08-31
# 効率的な推論のための生成的逆ネットワークの定量化:方法論的研究

Quantization of Generative Adversarial Networks for Efficient Inference: a Methodological Study ( http://arxiv.org/abs/2108.13996v1 )

ライセンス: Link先を確認
Pavel Andreev (1, 2, 3), Alexander Fritzler (1, 2, 4), Dmitry Vetrov (1, 3, 5) ((1) Higher School of Economics, (2) Skolkovo Institute of Science and Technology, (3) Samsung AI Center Moscow, (4) Yandex, (5) Samsung-HSE Laboratory)(参考訳) gans(generative adversarial network)は、フォトリアリスティックなデジタルアバター、セマンティックコンテンツ編集、音声や画像の品質向上など、デジタルコンテンツ作成に大きな影響を与える可能性がある。 しかし、現代のGANの性能は、推論中に大量の計算と高エネルギー消費によってもたらされる。 それは、エッジデバイスへのデプロイを複雑に、あるいは不可能にする。 量子化 -- 低ビット整数で浮動小数点計算を置き換えることで、ハードウェアフレンドリな推論を容易にするニューラルネットワーク圧縮技術だ。 量子化は識別モデルによく確立されているが、GANへの応用における現代の量子化技術の性能は未だ不明である。 GANは識別モデルよりも複雑な構造のコンテンツを生成するため、GANの量子化は極めて困難である。 この問題に対処するため、我々はStyleGAN、Self-Attention GAN、CycleGANという3つの異なるGANアーキテクチャ上で、最先端の量子化技術に関する広範な実験を行った。 その結果、4/8ビットの重みと8ビットのアクティベーションを推論し、元の完全精度モデルの品質を保ちながら、これらのモデルの定量化に成功した。

Generative adversarial networks (GANs) have an enormous potential impact on digital content creation, e.g., photo-realistic digital avatars, semantic content editing, and quality enhancement of speech and images. However, the performance of modern GANs comes together with massive amounts of computations performed during the inference and high energy consumption. That complicates, or even makes impossible, their deployment on edge devices. The problem can be reduced with quantization -- a neural network compression technique that facilitates hardware-friendly inference by replacing floating-point computations with low-bit integer ones. While quantization is well established for discriminative models, the performance of modern quantization techniques in application to GANs remains unclear. GANs generate content of a more complex structure than discriminative models, and thus quantization of GANs is significantly more challenging. To tackle this problem, we perform an extensive experimental study of state-of-art quantization techniques on three diverse GAN architectures, namely StyleGAN, Self-Attention GAN, and CycleGAN. As a result, we discovered practical recipes that allowed us to successfully quantize these models for inference with 4/8-bit weights and 8-bit activations while preserving the quality of the original full-precision models.
翻訳日:2021-09-01 14:35:35 公開日:2021-08-31
# 高速マルチラベル学習

Fast Multi-label Learning ( http://arxiv.org/abs/2108.13570v1 )

ライセンス: Link先を確認
Xiuwen Gong, Dong Yuan, Wei Bao(参考訳) 埋め込みアプローチは、マルチラベル分類において最も普及した手法の1つである。 しかし、埋め込み手法の訓練プロセスは通常、複雑な二次的あるいは半確定的なプログラミング問題を含む。 したがって、このような方法は大規模アプリケーションでは禁止される。 さらに重要なことに、文献の多くは、バイナリ関連性(BR)メソッドが、一部のアプリケーションでは通常十分であることを示している。 残念ながら、BRは入力データのサイズに線形に依存するため、ゆっくりと動作する。 本研究の目的は、複雑なトレーニングプロセスなしで競争性能を達成できる、証明可能な保証付き簡易な方法を提供することである。 この目的を達成するために,マルチラベル分類のための簡易な確率的スケッチ戦略を提案し,アルゴリズム的および統計的学習の観点から理論的結果を示す。 包括的実証研究により理論的知見が一致し,提案手法の優越性が実証された。

Embedding approaches have become one of the most pervasive techniques for multi-label classification. However, the training process of embedding methods usually involves a complex quadratic or semidefinite programming problem, or the model may even involve an NP-hard problem. Thus, such methods are prohibitive on large-scale applications. More importantly, much of the literature has already shown that the binary relevance (BR) method is usually good enough for some applications. Unfortunately, BR runs slowly due to its linear dependence on the size of the input data. The goal of this paper is to provide a simple method, yet with provable guarantees, which can achieve competitive performance without a complex training process. To achieve our goal, we provide a simple stochastic sketch strategy for multi-label classification and present theoretical results from both algorithmic and statistical learning perspectives. Our comprehensive empirical studies corroborate our theoretical findings and demonstrate the superiority of the proposed methods.
翻訳日:2021-09-01 14:35:13 公開日:2021-08-31
# 森林・樹木図形モデルのベイズ的学習

Bayesian learning of forest and tree graphical models ( http://arxiv.org/abs/2108.13992v1 )

ライセンス: Link先を確認
Edmund Jones(参考訳) ガウス図形モデル構造のベイズ学習において、確率ショットガン探索(SSS)などの手法を用いて、あるグラフから別のグラフへ繰り返し移動することによって、あるグラフのクラスへの注意を制限し、後方分布を近似することが一般的である。 非可逆グラフに対するアルゴリズムの修正版を2つ与え、特に事前分布としてランダムグラフ分布について論じる。 論文の主なテーマは、森林や樹木によるベイズ構造学習である。 これらのグラフに対する注意を制限することは、ランダムグラフ上の定理を用いて正当化することができる。 Chow$\unicode{x2013}$Liu アルゴリズムと Matrix Tree Theorem を使って MAP forest と木上の後方分布の一定の量を見つける方法について説明する。 森林や樹木の後方分布を近似するためのMCMCとSSSの適応版と、これらのグラフを格納するシステムを提供し、近隣のグラフへの移動を容易に選択できるようにする。 実験により、真のグラフが木またはスパースグラフであるときに、木を持つSSSがうまく機能することが示された。 木や森林を持つSSSは、特定の場合において分解可能なグラフを持つSSSよりも優れている。 グラフプリエントはハブの検出を改善するが、幅広い確率を必要とする。 森林でのMCMCはうまく混合できず、樹木でのMCMCはSSSよりも遅い。 (より抽象的な意味では論文を参照のこと。)

In Bayesian learning of Gaussian graphical model structure, it is common to restrict attention to certain classes of graphs and approximate the posterior distribution by repeatedly moving from one graph to another, using MCMC or methods such as stochastic shotgun search (SSS). I give two corrected versions of an algorithm for non-decomposable graphs and discuss random graph distributions, in particular as prior distributions. The main topic of the thesis is Bayesian structure-learning with forests or trees. Restricting attention to these graphs can be justified using theorems on random graphs. I describe how to use the Chow$\unicode{x2013}$Liu algorithm and the Matrix Tree Theorem to find the MAP forest and certain quantities in the posterior distribution on trees. I give adapted versions of MCMC and SSS for approximating the posterior distribution for forests and trees, and systems for storing these graphs so that it is easy to choose moves to neighbouring graphs. Experiments show that SSS with trees does well when the true graph is a tree or sparse graph. SSS with trees or forests does better than SSS with decomposable graphs in certain cases. Graph priors improve detection of hubs but need large ranges of probabilities. MCMC on forests fails to mix well and MCMC on trees is slower than SSS. (For a longer abstract see the thesis.)
翻訳日:2021-09-01 14:35:00 公開日:2021-08-31
# リモートセンシングデータによる大気汚染の推定:宇宙からの温室効果ガスの回収

Estimation of Air Pollution with Remote Sensing Data: Revealing Greenhouse Gas Emissions from Space ( http://arxiv.org/abs/2108.13902v1 )

ライセンス: Link先を確認
Linus Scheibenreif, Michael Mommert and Damian Borth(参考訳) 大気汚染は気候変動の主要な要因である。 輸送と発電のための化石燃料の燃焼による人為的排出は、温室効果ガス(GHG)を含む大量の問題のある大気汚染物質を放出する。 気候変動を緩和するためには, 温室効果ガス排出量の削減が重要であるにもかかわらず, 温室効果ガス等の大気汚染物質の空間的および時間的分布に関する詳細な情報を得ることは困難である。 地上レベルの大気汚染の既存のモデルは、しばしば局所的に制限され、時間的に静的な土地利用データセットに依存している。 本研究は,グローバルに利用可能かつ頻繁に更新されるリモートセンシングデータのみに依存する環境大気汚染予測のための深層学習手法を提案する。 光衛星画像と衛星ベースの大気柱密度大気汚染測定を組み合わせることで、大気汚染の推定値(NO$_2$)を任意の場所で高い空間分解能(最大$\sim$10m)にスケーリングし、これらの推定値に時間的成分を加えることができる。 提案モデルでは,地上局からの空気質測定(絶対誤差$<$6$~\mu g/m^3$)に対して高い精度で評価を行う。 その結果,大気汚染とghgの主な発生源の同定と時間的モニタリングが可能となった。

Air pollution is a major driver of climate change. Anthropogenic emissions from the burning of fossil fuels for transportation and power generation emit large amounts of problematic air pollutants, including Greenhouse Gases (GHGs). Despite the importance of limiting GHG emissions to mitigate climate change, detailed information about the spatial and temporal distribution of GHG and other air pollutants is difficult to obtain. Existing models for surface-level air pollution rely on extensive land-use datasets which are often locally restricted and temporally static. This work proposes a deep learning approach for the prediction of ambient air pollution that only relies on remote sensing data that is globally available and frequently updated. Combining optical satellite imagery with satellite-based atmospheric column density air pollution measurements enables the scaling of air pollution estimates (in this case NO$_2$) to high spatial resolution (up to $\sim$10m) at arbitrary locations and adds a temporal component to these estimates. The proposed model performs with high accuracy when evaluated against air quality measurements from ground stations (mean absolute error $<$6$~\mu g/m^3$). Our results enable the identification and temporal monitoring of major sources of air pollution and GHGs.
翻訳日:2021-09-01 14:34:38 公開日:2021-08-31
# ソフトウェア工学と人工知能専門家のための共通テスト用語を目指して

Towards a Common Testing Terminology for Software Engineering and Artificial Intelligence Experts ( http://arxiv.org/abs/2108.13837v1 )

ライセンス: Link先を確認
Lisa J\"ockel, Thomas Bauer, Michael Kl\"as, Marc P. Hauer, Janek Gro{\ss}(参考訳) 分析品質保証、特にテストは、ソフトウェア集約システム開発において不可欠な部分である。 このようなシステムの一部として人工知能(AI)と機械学習(ML)の利用が増えると、よく理解されたソフトウェアテストアプローチがシステムのAI対応部分に直接適用できないため、これはさらに困難になる。 古典的なテストアプローチの適応とAIの新しい概念の開発は、AIとソフトウェアエンジニアリングの専門家との深い理解と交換の恩恵を受けるだろう。 このように大きな障害となるのは,2つのコミュニティで使用されている用語の相違である。 本稿では,テスト用語の相互理解を鍵として考えるとともに,古典的ソフトウェアテストとAIテストの最も重要な概念のマッピングに寄与する。 マッピングでは、マップされた概念の関連性と命名の相違を強調する。

Analytical quality assurance, especially testing, is an integral part of software-intensive system development. With the increased usage of Artificial Intelligence (AI) and Machine Learning (ML) as part of such systems, this becomes more difficult as well-understood software testing approaches cannot be applied directly to the AI-enabled parts of the system. The required adaptation of classical testing approaches and development of new concepts for AI would benefit from a deeper understanding and exchange between AI and software engineering experts. A major obstacle on this way, we see in the different terminologies used in the two communities. As we consider a mutual understanding of the testing terminology as a key, this paper contributes a mapping between the most important concepts from classical software testing and AI testing. In the mapping, we highlight differences in relevance and naming of the mapped concepts.
翻訳日:2021-09-01 14:34:01 公開日:2021-08-31
# 会議要約のための動的滑り窓

Dynamic Sliding Window for Meeting Summarization ( http://arxiv.org/abs/2108.13629v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Nancy F. Chen(参考訳) 近年,抽象的な音声言語要約が研究の関心を喚起し,ニューラルシークエンス・ツー・シークエンス・アプローチが顕著な性能向上をもたらした。 しかし、長文の要約はいまだに困難である。 ソースの内容と対象の要約が多すぎるため、ニューラルネットワークはコンテキストに気を散らす傾向があり、劣化した品質の要約を生成する。 さらに、入力長制限のある事前学習言語モデルは、長いシーケンスに容易に適用できない。 本研究はまず,代表コーパス上での会議記録の言語的特徴を分析し,要約を含む文が会議議題と相関していることを確認した。 そこで本研究では, 会議要約のための動的スライディングウインドウ戦略を提案する。 実験の結果, 提案手法は性能に有益であり, 出力はベースモデルよりも高い結果整合性が得られることがわかった。

Recently abstractive spoken language summarization raises emerging research interest, and neural sequence-to-sequence approaches have brought significant performance improvement. However, summarizing long meeting transcripts remains challenging. Due to the large length of source contents and targeted summaries, neural models are prone to be distracted on the context, and produce summaries with degraded quality. Moreover, pre-trained language models with input length limitations cannot be readily applied to long sequences. In this work, we first analyze the linguistic characteristics of meeting transcripts on a representative corpus, and find that the sentences comprising the summary correlate with the meeting agenda. Based on this observation, we propose a dynamic sliding window strategy for meeting summarization. Experimental results show that performance benefit from the proposed method, and outputs obtain higher factual consistency than the base model.
翻訳日:2021-09-01 14:33:25 公開日:2021-08-31
# MELM: 言語間NERのためのマスクエンティティ言語モデリングによるデータ拡張

MELM: Data Augmentation with Masked Entity Language Modeling for Cross-lingual NER ( http://arxiv.org/abs/2108.13655v1 )

ライセンス: Link先を確認
Ran Zhou, Ruidan He, Xin Li, Lidong Bing, Erik Cambria, Luo Si, Chunyan Miao(参考訳) 言語間NERのためのデータ拡張には、拡張テキストのトークンラベルを細かく制御する必要がある。 マスク付き言語モデリングに基づく既存の拡張アプローチは、ラベル付きエンティティを異なるクラスの単語に置き換える可能性があり、拡張された文は元のラベルシーケンスと互換性がなく、パフォーマンスを損なう。 具体的には、MELMはNERラベルを文コンテキストに線形化し、微調整されたMELMはラベルを明示的に条件付けすることでマスク付きトークンを予測することができる。 私たちのMELMは、拡張されるデータのソースに依存しません。 具体的には、melmをソース言語のトレーニングデータ強化に適用すると、言語間nerの最大3.5%のf1スコア改善を達成している。 未ラベル対象データが利用可能で、MELMが擬似ラベル対象データの拡張にさらに適用可能な場合、性能ゲインは5.7%に達する。 さらに、MELMはデータ拡張のための複数のベースラインメソッドよりも一貫して優れています。

Data augmentation for cross-lingual NER requires fine-grained control over token labels of the augmented text. Existing augmentation approach based on masked language modeling may replace a labeled entity with words of a different class, which makes the augmented sentence incompatible with the original label sequence, and thus hurts the performance.We propose a data augmentation framework with Masked-Entity Language Modeling (MELM) which effectively ensures the replacing entities fit the original labels. Specifically, MELM linearizes NER labels into sentence context, and thus the fine-tuned MELM is able to predict masked tokens by explicitly conditioning on their labels. Our MELM is agnostic to the source of data to be augmented. Specifically, when MELM is applied to augment training data of the source language, it achieves up to 3.5% F1 score improvement for cross-lingual NER. When unlabeled target data is available and MELM can be further applied to augment pseudo-labeled target data, the performance gain reaches 5.7%. Moreover, MELM consistently outperforms multiple baseline methods for data augmentation.
翻訳日:2021-09-01 14:33:12 公開日:2021-08-31
# 時間表現正規化のための自動規則生成

Automatic Rule Generation for Time Expression Normalization ( http://arxiv.org/abs/2108.13658v1 )

ライセンス: Link先を確認
Wentao Ding, Jianhao Chen, Jinmao Li, Yuzhong Qu(参考訳) 時間表現の理解には、認識と正規化という2つのサブタスクが含まれる。 近年,正規化の研究が遅れている一方で,時間表現の認識において有意な進展がみられている。 既存のSOTA正規化手法は、専門家が設計した規則や文法に強く依存しており、ソーシャルメディアのテキストのような新しいコーパスのパフォーマンスを制限する。 本稿では,正規化時間値を構成する操作列として時間表現正規化をモデル化し,専門家の介入なしにトレーニングデータから正規化ルールを自動的に生成できるartimeと呼ばれる新しい手法を提案する。 具体的には、artimeは注釈付きデータから可能な操作シーケンスを自動的にキャプチャし、共通の表面形式を持つ時間表現の正規化規則を生成する。 実験の結果,ARTime は Tweets ベンチマークの SOTA メソッドをはるかに上回り,TempEval-3 ベンチマークの既存の専門家によるルール手法と競合する結果が得られることがわかった。

The understanding of time expressions includes two sub-tasks: recognition and normalization. In recent years, significant progress has been made in the recognition of time expressions while research on normalization has lagged behind. Existing SOTA normalization methods highly rely on rules or grammars designed by experts, which limits their performance on emerging corpora, such as social media texts. In this paper, we model time expression normalization as a sequence of operations to construct the normalized temporal value, and we present a novel method called ARTime, which can automatically generate normalization rules from training data without expert interventions. Specifically, ARTime automatically captures possible operation sequences from annotated data and generates normalization rules on time expressions with common surface forms. The experimental results show that ARTime can significantly surpass SOTA methods on the Tweets benchmark, and achieves competitive results with existing expert-engineered rule methods on the TempEval-3 benchmark.
翻訳日:2021-09-01 14:32:54 公開日:2021-08-31
# 忠実か抽出的か? 抽象要約における信条-抽象性トレードオフの緩和について

Faithful or Extractive? On Mitigating the Faithfulness-Abstrac tiveness Trade-off in Abstractive Summarization ( http://arxiv.org/abs/2108.13684v1 )

ライセンス: Link先を確認
Faisal Ladhak and Esin Durmus and He He and Claire Cardie and Kathleen McKeown(参考訳) 抽象要約の最近の進歩にもかかわらず、システムは依然として忠実な誤りに苦しんでいる。 先行研究では忠実度を改善するモデルが提案されているが、忠実度を改善するための簡単な方法として、モデル出力の抽出レベルの向上による改善が、要約モデルをより抽出的になるかどうかは不明である。 本研究では,抽象度スペクトルの異なる操作点における制御として機能する信頼度適応性トレードオフ曲線を生成することにより,要約システムの有効忠実度を評価するための枠組みを提案する。 その結果,mle(maximum likelihood estimation)のベースラインと,最近提案された忠実性向上法が,同じ抽象性レベルでの制御よりも悪いことがわかった。 最後に、ある文書に対して最も忠実で抽象的な要約を識別するセレクタを学習し、2つのデータセットのベースラインシステムよりも抽象的でありながら、人間の評価において高い忠実度を得られることを示す。 さらに,本システムでは,同じ抽象性のレベルでの制御よりも,忠実・強引なトレードオフを達成可能であることを示す。

Despite recent progress in abstractive summarization, systems still suffer from faithfulness errors. While prior work has proposed models that improve faithfulness, it is unclear whether the improvement comes from an increased level of extractiveness of the model outputs as one naive way to improve faithfulness is to make summarization models more extractive. In this work, we present a framework for evaluating the effective faithfulness of summarization systems, by generating a faithfulnessabstract iveness trade-off curve that serves as a control at different operating points on the abstractiveness spectrum. We then show that the Maximum Likelihood Estimation (MLE) baseline as well as a recently proposed method for improving faithfulness, are both worse than the control at the same level of abstractiveness. Finally, we learn a selector to identify the most faithful and abstractive summary for a given document, and show that this system can attain higher faithfulness scores in human evaluations while being more abstractive than the baseline system on two datasets. Moreover, we show that our system is able to achieve a better faithfulness-abstrac tiveness trade-off than the control at the same level of abstractiveness.
翻訳日:2021-09-01 14:32:38 公開日:2021-08-31
# plan-then-generate:プランニングによるデータ対テキスト生成制御

Plan-then-Generate: Controlled Data-to-Text Generation via Planning ( http://arxiv.org/abs/2108.13740v1 )

ライセンス: Link先を確認
Yixuan Su, David Vandyke, Sihui Wang, Yimai Fang, Nigel Collier(参考訳) ニューラルネットワークの最近の進歩は、データ-テキスト生成の進歩につながっている。 しかしながら、生成した出力の構造を制御するニューラルネットワークの能力の欠如は、特定の現実世界のアプリケーションで制限される可能性がある。 本研究では,ニューラルデータ・テキストモデルの制御性を改善するために,新しいPlanGenフレームワークを提案する。 ToTToとWebNLGという2つのベンチマークデータセットで、大規模な実験と分析を行う。 その結果,本モデルは生成した出力のsentence構造とinter-sentence構造の両方を制御できることがわかった。 さらに,従来の最先端手法との実証的比較により,本モデルが生成品質と出力多様性を人間および自動評価により評価した。

Recent developments in neural networks have led to the advance in data-to-text generation. However, the lack of ability of neural models to control the structure of generated output can be limiting in certain real-world applications. In this study, we propose a novel Plan-then-Generate (PlanGen) framework to improve the controllability of neural data-to-text models. Extensive experiments and analyses are conducted on two benchmark datasets, ToTTo and WebNLG. The results show that our model is able to control both the intra-sentence and inter-sentence structure of the generated output. Furthermore, empirical comparisons against previous state-of-the-art methods show that our model improves the generation quality as well as the output diversity as judged by human and automatic evaluations.
翻訳日:2021-09-01 14:32:19 公開日:2021-08-31
# TREND: 対話のためのトリガー強化関係抽出ネットワーク

TREND: Trigger-Enhanced Relation-Extraction Network for Dialogues ( http://arxiv.org/abs/2108.13811v1 )

ライセンス: Link先を確認
Po-Wei Lin, Shang-Yu Su, Yun-Nung Chen(参考訳) 対話関係抽出(dre)の目的は、与えられた対話における2つの実体間の関係を識別することである。 会話の間、話者は「トリガー(triggers)」と呼ばれるような証拠によって特定の実体に関係を暴露することがある。 しかし、DREの既存の作業は、トリガーを検出し、その情報を利用してパフォーマンスを向上しようとしなかった。 本稿では,関係抽出を改善するためのトリガの同定を学習するマルチタスクBERTモデルTRENDを提案する。 実験の結果,提案手法はベンチマークデータセットの最先端性を達成できることがわかった。

The goal of dialogue relation extraction (DRE) is to identify the relation between two entities in a given dialogue. During conversations, speakers may expose their relations to certain entities by some clues, such evidences called "triggers". However, none of the existing work on DRE tried to detect triggers and leverage the information for enhancing the performance. This paper proposes TREND, a multi-tasking BERT-based model which learns to identify triggers for improving relation extraction. The experimental results show that the proposed method achieves the state-of-the-art on the benchmark datasets.
翻訳日:2021-09-01 14:32:07 公開日:2021-08-31
# 自然言語推論における構造バイアス緩和のための生成的アプローチ

A Generative Approach for Mitigating Structural Biases in Natural Language Inference ( http://arxiv.org/abs/2108.14006v1 )

ライセンス: Link先を確認
Dimion Asael, Zachary Ziegler, Yonatan Belinkov(参考訳) 多くの自然言語推論(NLI)データセットにはバイアスがあり、残りの特徴を考慮せずに、入力のバイアス付きサブセットを使用することでモデルのパフォーマンスが向上する。 例えば、モデルはその仮説と前提の間の真の関係を学習することなく、仮説のみを用いて分類決定を行うことができる。 これらの構造バイアスは、意図しない表面的特徴を学習し、トレーニング分布から不十分に一般化する差別モデルに繋がる。 本研究では、NLIタスクを生成タスクとして再構成し、入力とラベルのバイアス付きサブセットにモデルを条件付けし、入力の残りのサブセットを生成する。 均一な事前条件を課すことで, 有意な偏りのないモデルが得られることを示す。 合成実験により、このアプローチは大量のバイアスに対して非常に堅牢であることがわかった。 次に、このアプローチが実際に完全にバイアスのないモデルにつながる2種類の自然なバイアスを実証的に示す。 しかし, 生成モデルは訓練が困難であり, 識別ベースラインよりも性能が劣ることがわかった。 この性能低下の原因として,NLIの文脈における生成的モデリングタスクの難しさを強調した。 最後に, 生成モデルを識別目的に微調整することにより, 生成モデルと識別ベースラインのパフォーマンスギャップを小さくし, 少数のバイアスを許容する。

Many natural language inference (NLI) datasets contain biases that allow models to perform well by only using a biased subset of the input, without considering the remainder features. For instance, models are able to make a classification decision by only using the hypothesis, without learning the true relationship between it and the premise. These structural biases lead discriminative models to learn unintended superficial features and to generalize poorly out of the training distribution. In this work, we reformulate the NLI task as a generative task, where a model is conditioned on the biased subset of the input and the label and generates the remaining subset of the input. We show that by imposing a uniform prior, we obtain a provably unbiased model. Through synthetic experiments, we find that this approach is highly robust to large amounts of bias. We then demonstrate empirically on two types of natural bias that this approach leads to fully unbiased models in practice. However, we find that generative models are difficult to train and they generally perform worse than discriminative baselines. We highlight the difficulty of the generative modeling task in the context of NLI as a cause for this worse performance. Finally, by fine-tuning the generative model with a discriminative objective, we reduce the performance gap between the generative model and the discriminative baseline, while allowing for a small amount of bias.
翻訳日:2021-09-01 14:31:58 公開日:2021-08-31
# 自然言語処理のための人工知能アルゴリズムとセマンティックwebオントロジー学習

Artificial Intelligence Algorithms for Natural Language Processing and the Semantic Web Ontology Learning ( http://arxiv.org/abs/2108.13772v1 )

ライセンス: Link先を確認
Bryar A. Hassan and Tarik A. Rashid(参考訳) 進化的クラスタリングアルゴリズムは、ほぼすべての分野における最適化と実用的問題を最小化するために最も広く使われている進化的アルゴリズムであると考えられている。 この論文では、新しい進化的クラスタリングアルゴリズム(ECA*)が提案されている。 さらに、5つの最先端アプローチに対してECA*を評価するために、いくつかの実験が行われた。 このために、32の異種および多機能データセットを使用して、内部クラスタリングと外部クラスタリングを使用してパフォーマンスを調べ、運用フレームワークの形式でデータセット機能に対するパフォーマンスの感度を測定した。 その結果,ECA*は,適切なクラスタを見つける能力において,競争力を克服していることがわかった。 その優れた性能に基づいて、オントロジー学習におけるeca*の活用と適応は不可欠であった。 概念階層をコーパスから導出する過程において、形式的文脈の生成は時間のかかるプロセスにつながる可能性がある。 したがって、形式的な文脈サイズ削減は、興味のないペアと誤ったペアを除去し、それに従って概念格子と概念階層を抽出する時間が短縮される。 本研究の目的は,ECA*の適応バージョンを用いて,既存のフレームワークの形式的コンテキストの曖昧さを軽減するフレームワークを提案することである。 次に,Wikipediaの385個のサンプルコーパスを2つのフレームワークに適用し,形式的文脈サイズの削減を検証し,概念格子と概念階層を導出する実験を行った。 その結果得られる形式的文脈の格子は、概念格子不変量を用いて元の格子に評価された。 したがって、2つの格子の間の準同型は、基本的なものとは対照的に、結果として生じる概念階層の質を89%保ち、縮小された概念格子は元の格子の構造的関係を継承する。

Evolutionary clustering algorithms have considered as the most popular and widely used evolutionary algorithms for minimising optimisation and practical problems in nearly all fields. In this thesis, a new evolutionary clustering algorithm star (ECA*) is proposed. Additionally, a number of experiments were conducted to evaluate ECA* against five state-of-the-art approaches. For this, 32 heterogeneous and multi-featured datasets were used to examine their performance using internal and external clustering measures, and to measure the sensitivity of their performance towards dataset features in the form of operational framework. The results indicate that ECA* overcomes its competitive techniques in terms of the ability to find the right clusters. Based on its superior performance, exploiting and adapting ECA* on the ontology learning had a vital possibility. In the process of deriving concept hierarchies from corpora, generating formal context may lead to a time-consuming process. Therefore, formal context size reduction results in removing uninterested and erroneous pairs, taking less time to extract the concept lattice and concept hierarchies accordingly. In this premise, this work aims to propose a framework to reduce the ambiguity of the formal context of the existing framework using an adaptive version of ECA*. In turn, an experiment was conducted by applying 385 sample corpora from Wikipedia on the two frameworks to examine the reduction of formal context size, which leads to yield concept lattice and concept hierarchy. The resulting lattice of formal context was evaluated to the original one using concept lattice-invariants. Accordingly, the homomorphic between the two lattices preserves the quality of resulting concept hierarchies by 89% in contrast to the basic ones, and the reduced concept lattice inherits the structural relation of the original one.
翻訳日:2021-09-01 14:31:37 公開日:2021-08-31
# aip:畳み込みニューラルネットワークのための知識伝達に基づく逆反復プルーニング

AIP: Adversarial Iterative Pruning Based on Knowledge Transfer for Convolutional Neural Networks ( http://arxiv.org/abs/2108.13591v1 )

ライセンス: Link先を確認
Jingfei Chang, Yang Lu, Ping Xue, Yiqun Xu and Zhen Wei(参考訳) 構造複雑性の増大に伴い、畳み込みニューラルネットワーク(CNN)は計算コストを大幅に削減する。 一方,既存の研究では,CNNにおける有意なパラメータ冗長性を明らかにしている。 現在のプルーニング法ではCNNを少ない性能低下で圧縮することができるが、プルーニング比が大きくなると精度損失がより深刻になる。 さらに, 刈り込み時の精度低下により, 重要でないパラメータを正確に識別・削除することは困難である。 本稿では,知識伝達に基づくCNNのための新しい逆反復刈取法(AIP)を提案する。 オリジナルのネットワークは教師と見なされ、圧縮されたネットワークは学生である。 教師から生徒への情報を伝達するために注意マップと出力特徴を適用した。 そして、2つのネットワークの出力を対角ゲームでプレイできるように、浅い完全接続ネットワークを判別器として設計し、プルーニング間隔間のプルーニング精度を迅速に回復する。 最後に,チャネルの重要性に基づいた反復的プルーニング方式を提案する。 画像分類タスクCIFAR-10, CIFAR-100, ILSVRC-2012の広範な実験を行い, 精度の低下を伴わずに, CNNの効率的な圧縮を実現する方法を検証する。 ILSVRC-2012では、ResNet-18の36.78%のパラメータと45.55%の浮動小数点演算(FLOP)が削除された。 本手法は圧縮率と精度の点で最先端の刈り取り方式よりも優れている。 さらに,物体検出タスクPASCAL VOCに対して,AIPが優れた一般化を行うことを示す。

With the increase of structure complexity, convolutional neural networks (CNNs) take a fair amount of computation cost. Meanwhile, existing research reveals the salient parameter redundancy in CNNs. The current pruning methods can compress CNNs with little performance drop, but when the pruning ratio increases, the accuracy loss is more serious. Moreover, some iterative pruning methods are difficult to accurately identify and delete unimportant parameters due to the accuracy drop during pruning. We propose a novel adversarial iterative pruning method (AIP) for CNNs based on knowledge transfer. The original network is regarded as the teacher while the compressed network is the student. We apply attention maps and output features to transfer information from the teacher to the student. Then, a shallow fully-connected network is designed as the discriminator to allow the output of two networks to play an adversarial game, thereby it can quickly recover the pruned accuracy among pruning intervals. Finally, an iterative pruning scheme based on the importance of channels is proposed. We conduct extensive experiments on the image classification tasks CIFAR-10, CIFAR-100, and ILSVRC-2012 to verify our pruning method can achieve efficient compression for CNNs even without accuracy loss. On the ILSVRC-2012, when removing 36.78% parameters and 45.55% floating-point operations (FLOPs) of ResNet-18, the Top-1 accuracy drop are only 0.66%. Our method is superior to some state-of-the-art pruning schemes in terms of compressing rate and accuracy. Moreover, we further demonstrate that AIP has good generalization on the object detection task PASCAL VOC.
翻訳日:2021-09-01 14:30:51 公開日:2021-08-31
# 深層学習によるpl測定からのモジュールパワー予測

Module-Power Prediction from PL Measurements using Deep Learning ( http://arxiv.org/abs/2108.13640v1 )

ライセンス: Link先を確認
Mathis Hoffmann, Johannes Hepp, Bernd Doll, Claudia Buerhop-Lutz, Ian Marius Peters, Christoph Brabec, Andreas Maier, Vincent Christlein(参考訳) 太陽電池モジュールの電力損失の原因は、かなり長い間調査されてきた。 近年、モジュールの電力損失は、例えば、不活性領域の分数に関連していることが示されている。 これらの領域はエレクトロルミネッセンス(EL)画像から容易に識別できるが、フォトルミネッセンス(PL)画像ではより困難である。 本研究では,EL画像とPL画像とのパワーレグレッションのギャップを埋める。 深層畳み込みニューラルネットワークを用いて,平均絶対誤差(mae)4.4%または11.7wpのpl画像からモジュール電力を予測する。 さらに、トレーニングネットワークの埋め込みから計算した回帰写像を用いて、局所的な電力損失を計算することができることを示す。 最後に,これらの回帰マップを用いて,PL画像中の不活性領域を同定できることを示す。

The individual causes for power loss of photovoltaic modules are investigated for quite some time. Recently, it has been shown that the power loss of a module is, for example, related to the fraction of inactive areas. While these areas can be easily identified from electroluminescense (EL) images, this is much harder for photoluminescence (PL) images. With this work, we close the gap between power regression from EL and PL images. We apply a deep convolutional neural network to predict the module power from PL images with a mean absolute error (MAE) of 4.4% or 11.7WP. Furthermore, we depict that regression maps computed from the embeddings of the trained network can be used to compute the localized power loss. Finally, we show that these regression maps can be used to identify inactive regions in PL images as well.
翻訳日:2021-09-01 14:30:22 公開日:2021-08-31
# Grad-CAM一貫性を用いた半教師付き画像分類

Semi-supervised Image Classification with Grad-CAM Consistency ( http://arxiv.org/abs/2108.13673v1 )

ライセンス: Link先を確認
Juyong Lee, Seunghyuk Cho(参考訳) 画像上の異なる拡張で教師付き学習と教師なし学習の両方を利用する一貫性トレーニングは、半教師付き学習(SSL)方式でラベルなしデータを利用する効果的な方法である。 そこで本研究では,学習モデルの一般化と調整性の向上により,学習モデルに利用することができるように,grad-cam一貫性損失を伴う別の手法を提案する。 我々は,CIFAR-10データセットを用いて,ベースラインResNetモデルを最大1.44%,0.31$\pm$ 0.59%の精度で改善したことを示す。 Psuedo-labelのみを用いた整合性トレーニングと比較検討を行った。 また,本手法はモデル内の異なる単位を対象とする場合,異なる環境に適応できると主張する。 コードは、https://github.com/g imme1 dollars/gradcam-cons istency-semi-sup。

Consistency training, which exploits both supervised and unsupervised learning with different augmentations on image, is an effective method of utilizing unlabeled data in semi-supervised learning (SSL) manner. Here, we present another version of the method with Grad-CAM consistency loss, so it can be utilized in training model with better generalization and adjustability. We show that our method improved the baseline ResNet model with at most 1.44 % and 0.31 $\pm$ 0.59 %p accuracy improvement on average with CIFAR-10 dataset. We conducted ablation study comparing to using only psuedo-label for consistency training. Also, we argue that our method can adjust in different environments when targeted to different units in the model. The code is available: https://github.com/g imme1dollar/gradcam- consistency-semi-sup .
翻訳日:2021-09-01 14:30:08 公開日:2021-08-31
# 終端から終端までの単眼点検出

End-to-End Monocular Vanishing Point Detection Exploiting Lane Annotations ( http://arxiv.org/abs/2108.13699v1 )

ライセンス: Link先を確認
Hiroto Honda, Motoki Kimura, Takumi Karasawa, Yusuke Uchida(参考訳) バニシングポイント(VP)は、様々なコンピュータビジョンタスクにおいて、特に画像から3Dシーンを認識するために重要な役割を果たす。 自動車応用の現実的なシナリオでは、カメラが取り付けられたり、アタッチメントが誤って摂動した場合、外部カメラパラメータを手動で取得するコストがかかる。 本稿では,シンプルだが効果的な終端点検出手法を提案する。 外挿されたレーンマーカーアノテーションの交叉を自動的に計算することにより、幾何学的に一貫したVPラベルを取得し、手動のVPラベルによる人間のアノテーションエラーを軽減する。 計算済みのVPラベルを使って、ヒートマップ推定によってエンドツーエンドのVP検出器をトレーニングします。 VP Detectorは、手動アノテーションや車線検出を利用する方法よりも高い精度を実現し、正確なオンラインカメラキャリブレーションを実現する。

Vanishing points (VPs) play a vital role in various computer vision tasks, especially for recognizing the 3D scenes from an image. In the real-world scenario of automobile applications, it is costly to manually obtain the external camera parameters when the camera is attached to the vehicle or the attachment is accidentally perturbed. In this paper we introduce a simple but effective end-to-end vanishing point detection. By automatically calculating intersection of the extrapolated lane marker annotations, we obtain geometrically consistent VP labels and mitigate human annotation errors caused by manual VP labeling. With the calculated VP labels we train end-to-end VP Detector via heatmap estimation. The VP Detector realizes higher accuracy than the methods utilizing manual annotation or lane detection, paving the way for accurate online camera calibration.
翻訳日:2021-09-01 14:29:53 公開日:2021-08-31
# 補償付きプルーニング:ディープ畳み込みニューラルネットワークのための効率的なチャネルプルーニング

Pruning with Compensation: Efficient Channel Pruning for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2108.13728v1 )

ライセンス: Link先を確認
Zhouyang Xie, Yan Fu, Shengzhao Tian, Junlin Zhou, Duanbing Chen(参考訳) チャネルプルーニングは、深層畳み込みニューラルネットワーク(dcnn)のパラメータを圧縮し、推論を高速化するための有望なテクニックである。 本稿では,チャネルプルーニングの長期的非効率性に対処することを目的とする。 ほとんどのチャネルプルーニング法は、残りのパラメータやランダム初期化からプルーニングモデルを再学習することで予測精度を回復する。 この再学習プロセスは、計算資源、トレーニングデータ、人間の干渉(トレーニング戦略のチューニング)の充足度に大きく依存する。 本稿では,DCNNのプルーニングコストを大幅に削減する高効率プルーニング手法を提案する。 提案手法の主な貢献は,1)プルーニング補償,2)特徴の修復損失を最小限に抑えるための高速かつデータ効率の代替,2)プライスアウェアプルーニング(CaP),2)情報の損失を最小限に抑えることで冗長あるいは低重み付きチャネルを除去する新しいプルーニングアルゴリズム,3)ステップ制約による2次構造探索である。 CIFAR-10/100やImageNetなどのベンチマークでは、最先端のリトレーニングベースプルーニング手法と競合するプルーニング性能を示し、さらに、処理時間を95%削減し、データ使用量を90%削減した。

Channel pruning is a promising technique to compress the parameters of deep convolutional neural networks(DCNN) and to speed up the inference. This paper aims to address the long-standing inefficiency of channel pruning. Most channel pruning methods recover the prediction accuracy by re-training the pruned model from the remaining parameters or random initialization. This re-training process is heavily dependent on the sufficiency of computational resources, training data, and human interference(tuning the training strategy). In this paper, a highly efficient pruning method is proposed to significantly reduce the cost of pruning DCNN. The main contributions of our method include: 1) pruning compensation, a fast and data-efficient substitute of re-training to minimize the post-pruning reconstruction loss of features, 2) compensation-aware pruning(CaP), a novel pruning algorithm to remove redundant or less-weighted channels by minimizing the loss of information, and 3) binary structural search with step constraint to minimize human interference. On benchmarks including CIFAR-10/100 and ImageNet, our method shows competitive pruning performance among the state-of-the-art retraining-based pruning methods and, more importantly, reduces the processing time by 95% and data usage by 90%.
翻訳日:2021-09-01 14:29:39 公開日:2021-08-31
# データ融合による都市点雲の自動ラベリング

Automatic labelling of urban point clouds using data fusion ( http://arxiv.org/abs/2108.13757v1 )

ライセンス: Link先を確認
Daan Bloembergen and Chris Eijgenstein(参考訳) 本稿では,都市部における街路点雲のセマンティックセグメンテーションのためのラベル付きデータセットを半自動生成する手法について述べる。 我々は,標高データや大規模地形図などの公開データソースを用いたデータ融合技術を用いてポイントクラウドの部分を自動的にラベル付けする。 これにより、ディープセマンティックセグメンテーションモデルをトレーニングするのに十分なラベル付きデータセットを作成するのに必要な時間が大幅に制限される。 本手法をアムステルダム地域のクラウドに応用し,ラベル付きデータセット上でRandLA-Netセマンティックセマンティックセグメンテーションモデルをトレーニングした。 これらの結果は、スマートシティ計画と管理の将来に向けたスマートデータ融合とセマンティックセグメンテーションの可能性を示している。

In this paper we describe an approach to semi-automatically create a labelled dataset for semantic segmentation of urban street-level point clouds. We use data fusion techniques using public data sources such as elevation data and large-scale topographical maps to automatically label parts of the point cloud, after which only limited human effort is needed to check the results and make amendments where needed. This drastically limits the time needed to create a labelled dataset that is extensive enough to train deep semantic segmentation models. We apply our method to point clouds of the Amsterdam region, and successfully train a RandLA-Net semantic segmentation model on the labelled dataset. These results demonstrate the potential of smart data fusion and semantic segmentation for the future of smart city planning and management.
翻訳日:2021-09-01 14:28:35 公開日:2021-08-31
# 配管とインスツルメンテーション図を用いた建物エネルギーシステムの自動ディジタル双対データモデル生成

Automatic digital twin data model generation of building energy systems from piping and instrumentation diagrams ( http://arxiv.org/abs/2108.13912v1 )

ライセンス: Link先を確認
Florian Stinner, Martin Wiecek, Marc Baranski, Alexander K\"umpel, Dirk M\"uller(参考訳) 建物は直接間接的に現在のCO2排出量の大部分を排出する。 モデル予測制御(MPC)のような自動化システム(BAS)の構築において,現代的な制御手法によるCO2削減の可能性が高い。 適切な制御のために、MPCは制御システムの将来の振る舞いを予測する数学的モデルを必要とする。 この目的のために、建物のデジタル双生児が使用できる。 しかし、既存の建物では、デジタルツイン設置は通常労働集約的である。 特に、技術的システムの異なるコンポーネントを建物の全体的なデジタルツインに結びつけるのに時間がかかります。 配管・計器図(p&id)は必要な情報を提供することができるが、情報を抽出し、さらに処理するために標準化されたフォーマットで提供する必要がある。 本研究では,建物からP&IDのシンボルと接続を,完全に自動化された方法で認識する手法を提案する。 建築エネルギーシステムのP&IDにおけるシンボルのグラフィカル表現には様々な標準がある。 したがって、さまざまなデータソースと標準を使用して、総合的なトレーニングデータセットを生成します。 シンボル認識,線認識,およびデータセットへの接続の導出にアルゴリズムを適用する。 さらに、結果はエネルギーシステムの構築の意味を提供するフォーマットにエクスポートされる。 シンボル認識、線認識、接続認識は、平均精度93.7%で良好な結果を示し、制御生成、(分散)モデル予測制御、障害検出などのさらなるプロセスで使用できる。 しかし、この手法にはさらなる研究が必要である。

Buildings directly and indirectly emit a large share of current CO2 emissions. There is a high potential for CO2 savings through modern control methods in building automation systems (BAS) like model predictive control (MPC). For a proper control, MPC needs mathematical models to predict the future behavior of the controlled system. For this purpose, digital twins of the building can be used. However, with current methods in existing buildings, a digital twin set up is usually labor-intensive. Especially connecting the different components of the technical system to an overall digital twin of the building is time-consuming. Piping and instrument diagrams (P&ID) can provide the needed information, but it is necessary to extract the information and provide it in a standardized format to process it further. In this work, we present an approach to recognize symbols and connections of P&ID from buildings in a completely automated way. There are various standards for graphical representation of symbols in P&ID of building energy systems. Therefore, we use different data sources and standards to generate a holistic training data set. We apply algorithms for symbol recognition, line recognition and derivation of connections to the data sets. Furthermore, the result is exported to a format that provides semantics of building energy systems. The symbol recognition, line recognition and connection recognition show good results with an average precision of 93.7%, which can be used in further processes like control generation, (distributed) model predictive control or fault detection. Nevertheless, the approach needs further research.
翻訳日:2021-09-01 14:28:21 公開日:2021-08-31
# k-キャラクタ置換に関する最大長さのグレーサイクル

Gray Cycles of Maximum Length Related to k-Character Substitutions ( http://arxiv.org/abs/2108.13659v1 )

ライセンス: Link先を確認
Jean N\'eraud (LITIS, UNIROUEN)(参考訳) 単語のバイナリ関係 $\tau$ が与えられると、有限言語上の$x$ を$\left(w_{[i]}\right)_{0\le i\le |x|-1}$ と定義し、各単語 $w_i$ が前の単語 $w_{i-1}$ のイメージであるような$x$ を$\tau$ で定義する。 このフレームワークでは、$\lambda(n)$という、長さの単語が最大$n$である言語で最大濃度の$X$に等しい複雑性測度を導入し、$X$を超える$\tau$-Grayサイクルが存在するようにします。 本論文は、$(u,v)$が$\sigma_k$に属するようないわゆる$k$-character substitutionである$\tau=\sigma_k$の関係と、そのハミング距離が$u$と$v$が$k$であることに関係している。 アルファベットの基数と引数 $n$ のすべての場合の有界$\lambda(n)$ を計算する。

Given a word binary relation $\tau$ we define a $\tau$-Gray cycle over a finite language $X$ to be a permutation $\left(w_{[i]}\right)_{0\le i\le |X|-1}$ of $X$ such that each word $w_i$ is an image of the previous word $w_{i-1}$ by $\tau$. In that framework, we introduce the complexity measure $\lambda(n)$, equal to the largest cardinality of a language $X$ having words of length at most $n$, and such that a $\tau$-Gray cycle over $X$ exists. The present paper is concerned with the relation $\tau=\sigma_k$, the so-called $k$-character substitution, where $(u,v)$ belongs to $\sigma_k$ if, and only if, the Hamming distance of $u$ and $v$ is $k$. We compute the bound $\lambda(n)$ for all cases of the alphabet cardinality and the argument $n$.
翻訳日:2021-09-01 14:28:00 公開日:2021-08-31
# 層状毒による事前訓練モデルのバックドア攻撃

Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning ( http://arxiv.org/abs/2108.13888v1 )

ライセンス: Link先を確認
Linyang Li, Demin Song, Xiaonan Li, Jiehang Zeng, Ruotian Ma, Xipeng Qiu(参考訳) \textbf{P}re-\textbf{T}rained \textbf{M}odel\textbf{s} が広く適用され、最近バックドア攻撃によって脆弱であることが証明された。 トリガーが起動されると、微調整されたモデルでさえ事前に定義されたラベルを予測し、セキュリティの脅威を引き起こす。 これらの中毒方法によって生成されたバックドアは、微調整中にハイパーパラメータを変更するか、トリガーを見つけることで検出することで消去することができる。 本稿では,より深いバックドアを植えるため,重毒対策を多層的に導入し,容易に検出できない組み合わせトリガも導入する,より強力な重毒攻撃法を提案する。 テキスト分類タスクの実験では,従来の防御手法では重み付けに抵抗できないことが示され,本手法は広く適用可能であり,今後のモデルロバストネス研究のヒントとなる可能性がある。

\textbf{P}re-\textbf{T}rained \textbf{M}odel\textbf{s} have been widely applied and recently proved vulnerable under backdoor attacks: the released pre-trained weights can be maliciously poisoned with certain triggers. When the triggers are activated, even the fine-tuned model will predict pre-defined labels, causing a security threat. These backdoors generated by the poisoning methods can be erased by changing hyper-parameters during fine-tuning or detected by finding the triggers. In this paper, we propose a stronger weight-poisoning attack method that introduces a layerwise weight poisoning strategy to plant deeper backdoors; we also introduce a combinatorial trigger that cannot be easily detected. The experiments on text classification tasks show that previous defense methods cannot resist our weight-poisoning method, which indicates that our method can be widely applied and may provide hints for future model robustness studies.
翻訳日:2021-09-01 14:27:31 公開日:2021-08-31
# dogr: 不均質データの再現性解析のための分散ガウス回帰

DoGR: Disaggregated Gaussian Regression for Reproducible Analysis of Heterogeneous Data ( http://arxiv.org/abs/2108.13581v1 )

ライセンス: Link先を確認
Nazanin Alipourfard, Keith Burghardt, Kristina Lerman(参考訳) 大規模データの定量的分析は、様々なサブグループの存在によって複雑になり、保持されたデータに対する推測の精度が低下する。 異種データ分析の課題に対処するため,重なり合うクラスタ(分散)にデータを分割し,その内の振る舞いをモデル化し(回帰)、潜在的共同設立者を検出するDoGRを導入する。 実世界のデータに適用すると,本手法は有意義なクラスタとその特徴的行動を発見し,グループ差と関心の帰結に与える影響について考察する。 潜伏する共同創設者を考慮すれば,ノイズの多い異種データの探索的分析が容易になり,新しいデータへの一般化を促進する予測モデルを学ぶことができる。 私たちは、他の人がデータ分析ワークフローでDoGRを使えるようにするためのコードを提供します。

Quantitative analysis of large-scale data is often complicated by the presence of diverse subgroups, which reduce the accuracy of inferences they make on held-out data. To address the challenge of heterogeneous data analysis, we introduce DoGR, a method that discovers latent confounders by simultaneously partitioning the data into overlapping clusters (disaggregation) and modeling the behavior within them (regression). When applied to real-world data, our method discovers meaningful clusters and their characteristic behaviors, thus giving insight into group differences and their impact on the outcome of interest. By accounting for latent confounders, our framework facilitates exploratory analysis of noisy, heterogeneous data and can be used to learn predictive models that better generalize to new data. We provide the code to enable others to use DoGR within their data analytic workflows.
翻訳日:2021-09-01 14:27:12 公開日:2021-08-31
# アウト・オブ・ディストリビューション・ジェネライゼーションに向けて--調査

Towards Out-Of-Distribution Generalization: A Survey ( http://arxiv.org/abs/2108.13624v1 )

ライセンス: Link先を確認
Zheyan Shen, Jiashuo Liu, Yue He, Xingxuan Zhang, Renzhe Xu, Han Yu, Peng Cui(参考訳) 古典的な機械学習手法は、トレーニングとテストのデータが独立して分散しているという$i.i.d.$の仮定に基づいている。 しかし、実際のシナリオでは、$i.d.$の仮定は満たされることがほとんどなく、古典的な機械学習アルゴリズムのパフォーマンスを分散シフトの下で急落させ、アウト・オブ・ディストリビューションの一般化問題を調べることの重要性を示している。 Out-of-Distribution (OOD) の一般化問題は、テスト分布が未知でトレーニングとは異なる困難な設定に対処する。 本稿は,OODの一般化問題を,定義,方法論,評価,含意,今後の方向性など,体系的かつ包括的に議論する最初の試みである。 まず、OOD一般化問題の形式的定義を提供する。 第2に、既存の手法は、学習パイプライン全体の位置、すなわち教師なし表現学習、教師付きモデル学習と最適化の3つの部分に分類し、各カテゴリの典型的な手法を詳細に議論する。 次に、異なるカテゴリの理論的関係を示し、よく使われるデータセットと評価指標を紹介する。 最後に、文献全体を要約し、OOD一般化問題の今後の方向性を示す。 本調査でレビューしたOOD一般化手法の要約はhttp://out-of-distri ion- generalization.comで見ることができる。

Classic machine learning methods are built on the $i.i.d.$ assumption that training and testing data are independent and identically distributed. However, in real scenarios, the $i.i.d.$ assumption can hardly be satisfied, rendering the sharp drop of classic machine learning algorithms' performances under distributional shifts, which indicates the significance of investigating the Out-of-Distribution generalization problem. Out-of-Distribution (OOD) generalization problem addresses the challenging setting where the testing distribution is unknown and different from the training. This paper serves as the first effort to systematically and comprehensively discuss the OOD generalization problem, from the definition, methodology, evaluation to the implications and future directions. Firstly, we provide the formal definition of the OOD generalization problem. Secondly, existing methods are categorized into three parts based on their positions in the whole learning pipeline, namely unsupervised representation learning, supervised model learning and optimization, and typical methods for each category are discussed in detail. We then demonstrate the theoretical connections of different categories, and introduce the commonly used datasets and evaluation metrics. Finally, we summarize the whole literature and raise some future directions for OOD generalization problem. The summary of OOD generalization methods reviewed in this survey can be found at http://out-of-distri bution-generalizatio n.com.
翻訳日:2021-09-01 14:26:56 公開日:2021-08-31
# フルバッチ損失の1次元パラボラモデルを用いてトレーニング中の学習率を推定する

Using a one dimensional parabolic model of the full-batch loss to estimate learning rates during training ( http://arxiv.org/abs/2108.13880v1 )

ライセンス: Link先を確認
Maximus Mutschler and Andreas Zell(参考訳) 深層学習における基本的な課題は、確率的勾配降下の最適なステップサイズを見つけることである。 従来の最適化では、行検索はステップサイズを決定するためによく使われる方法である。 ディープラーニングの1つの問題は、フルバッチ損失の適切なステップサイズを見つけることは不可能なコストである。 したがって、本質的なノイズのない損失を想定した古典的な線探索アプローチは、通常は適用されない。 近年の実証研究によれば、全バッチ損失は、ノイズの多い更新ステップ方向の方向に局所的に寄生的に振る舞う。 さらに、最適な更新ステップサイズの動向はゆっくりと変化している。 これらの知見を生かして,複数のミニバッチで推定されるパラボラを用いて全バッチ損失を近似する線探索手法を提案する。 学習率は、トレーニング中にそのようなパラボラに由来する。 実験では,モデル,データセット,バッチサイズをまたいだ検証とテストの精度について,sgdを部分的に一定の学習率のスケジュールで調整し,他のライン探索法と比較した。

A fundamental challenge in Deep Learning is to find optimal step sizes for stochastic gradient descent. In traditional optimization, line searches are a commonly used method to determine step sizes. One problem in Deep Learning is that finding appropriate step sizes on the full-batch loss is unfeasible expensive. Therefore, classical line search approaches, designed for losses without inherent noise, are usually not applicable. Recent empirical findings suggest that the full-batch loss behaves locally parabolically in the direction of noisy update step directions. Furthermore, the trend of the optimal update step size is changing slowly. By exploiting these findings, this work introduces a line-search method that approximates the full-batch loss with a parabola estimated over several mini-batches. Learning rates are derived from such parabolas during training. In the experiments conducted, our approach mostly outperforms SGD tuned with a piece-wise constant learning rate schedule and other line search approaches for Deep Learning across models, datasets, and batch sizes on validation and test accuracy.
翻訳日:2021-09-01 14:26:34 公開日:2021-08-31
# APS: 継承機能付きアクティブプレトレーニング

APS: Active Pretraining with Successor Features ( http://arxiv.org/abs/2108.13956v1 )

ライセンス: Link先を確認
Hao Liu, Pieter Abbeel(参考訳) 強化学習のための新しい教師なし事前学習目標を提案する。 教師なし報酬なし事前訓練フェーズにおいて、エージェントはポリシーによって誘導されるタスクと状態間の相互情報を最大化する。 私たちの重要な貢献は、この難解な量の新たな下限です。 変分後継特徴を再解釈し結合することにより、非パラメトリックエントロピー最大化〜\citep{liu2021behavior} を効率的に最適化できることを示す。 提案手法は,非パラメトリックエントロピー最大化により環境を探索し,探索したデータを効率よく活用し,変分後継特徴による行動学習を行う。 APSは、既存の相互情報最大化とエントロピー最大化に基づく教師なしRLの制限に対処し、両方の世界のベストを組み合わせている。 atari 100kデータ効率ベンチマークで評価すると、教師なし事前学習とタスク固有の微調整を組み合わせた従来の手法を大きく上回っている。

We introduce a new unsupervised pretraining objective for reinforcement learning. During the unsupervised reward-free pretraining phase, the agent maximizes mutual information between tasks and states induced by the policy. Our key contribution is a novel lower bound of this intractable quantity. We show that by reinterpreting and combining variational successor features~\citep{Hansen2020Fast} with nonparametric entropy maximization~\citep{liu2021behavior}, the intractable mutual information can be efficiently optimized. The proposed method Active Pretraining with Successor Feature (APS) explores the environment via nonparametric entropy maximization, and the explored data can be efficiently leveraged to learn behavior by variational successor features. APS addresses the limitations of existing mutual information maximization based and entropy maximization based unsupervised RL, and combines the best of both worlds. When evaluated on the Atari 100k data-efficiency benchmark, our approach significantly outperforms previous methods combining unsupervised pretraining with task-specific finetuning.
翻訳日:2021-09-01 14:26:15 公開日:2021-08-31
# コールドスタート問題に対するゼロショット:レコメンデーションシステムのためのモデル非依存関心学習

Zero Shot on the Cold-Start Problem: Model-Agnostic Interest Learning for Recommender Systems ( http://arxiv.org/abs/2108.13592v1 )

ライセンス: Link先を確認
Philip J. Feng, Pingjun Pan, Tingting Zhou, Hongxiang Chen, Chuanjiang Luo(参考訳) ユーザ行動は、商用レコメンデーションのパーソナライズされた好みを明らかにするのに効果的であることが検証されている。 しかし、新しいユーザのためにユーザとイテムのインタラクションを収集することは少ないため、関心事、すなわちコールドスタートジレンマに対するnullスペースが生じる。 本稿では,レコメンダシステムにおけるコールドスタートレコメンデーション(csr)問題に対処するために,モデル非依存利子学習(mail)フレームワークである2-towerフレームワークを提案する。 郵便では、ゼロショットビューからcsrに取り組むために1つのユニークな塔が建設され、もう1つの塔は一般的なランキングタスクに焦点を当てている。 具体的には、ゼロショットタワーは、まずデュアルオートエンコーダを用いてクロスモーダル再構築を行い、新規ユーザのために高度に整列された隠蔽特徴から仮想行動データを取得し、その後、ゼロショットタワーによる完了データに基づいてユーザのためのレコメンデーションを出力することができる。 実際、MAILのランキングタワーはモデルに依存しず、どんな埋め込みベースのディープモデルでも実装できる。 2つのタワーの協調訓練に基づき、MAILはインクリメンタルな性能改善を示すレコメンデータシステムのためのエンドツーエンドの手法を提案する。 提案手法は,NetEase Cloud Musicのライブレコメンデーションシステムに実装され,数百万ユーザに対してクリックスルー率を13%から15%向上させることに成功した。 実世界のデータセットでのオフライン実験もcsrにおいて優れたパフォーマンスを示している。 私たちのコードは利用可能です。

User behavior has been validated to be effective in revealing personalized preferences for commercial recommendations. However, few user-item interactions can be collected for new users, which results in a null space for their interests, i.e., the cold-start dilemma. In this paper, a two-tower framework, namely, the model-agnostic interest learning (MAIL) framework, is proposed to address the cold-start recommendation (CSR) problem for recommender systems. In MAIL, one unique tower is constructed to tackle the CSR from a zero-shot view, and the other tower focuses on the general ranking task. Specifically, the zero-shot tower first performs cross-modal reconstruction with dual auto-encoders to obtain virtual behavior data from highly aligned hidden features for new users; and the ranking tower can then output recommendations for users based on the completed data by the zero-shot tower. Practically, the ranking tower in MAIL is model-agnostic and can be implemented with any embedding-based deep models. Based on the co-training of the two towers, the MAIL presents an end-to-end method for recommender systems that shows an incremental performance improvement. The proposed method has been successfully deployed on the live recommendation system of NetEase Cloud Music to achieve a click-through rate improvement of 13% to 15% for millions of users. Offline experiments on real-world datasets also show its superior performance in CSR. Our code is available.
翻訳日:2021-09-01 14:25:55 公開日:2021-08-31
# サイバーバトルシムに偽装を組み込んだ自律防衛

Incorporating Deception into CyberBattleSim for Autonomous Defense ( http://arxiv.org/abs/2108.13980v1 )

ライセンス: Link先を確認
Erich Walter, Kimberly Ferguson-Walter, Ahmad Ridley(参考訳) ハニーポットやデコイなどの知覚要素は、Microsoft CyberBattleSimの実験と研究プラットフォームに組み込まれた。 偽装要素の防御能力は,フラグ環境を捕捉する強化学習に基づく攻撃者を用いて検証された。 攻撃者の進行は、偽りの要素の数と位置に依存することが判明した。 これは、偽りの防御要素を持つシミュレーションされたエンタープライズネットワークにおける攻撃と防御のアルゴリズムを再現的にテストするための有望なステップである。

Deceptive elements, including honeypots and decoys, were incorporated into the Microsoft CyberBattleSim experimentation and research platform. The defensive capabilities of the deceptive elements were tested using reinforcement learning based attackers in the provided capture the flag environment. The attacker's progress was found to be dependent on the number and location of the deceptive elements. This is a promising step toward reproducibly testing attack and defense algorithms in a simulated enterprise network with deceptive defensive elements.
翻訳日:2021-09-01 14:25:24 公開日:2021-08-31
# バイオメディカルチャレンジと方向性の発見のための検索エンジン

A Search Engine for Discovery of Biomedical Challenges and Directions ( http://arxiv.org/abs/2108.13751v1 )

ライセンス: Link先を確認
Dan Lahav, Jon Saad Falcon, Bailey Kuehl, Sophie Johnson, Sravanthi Parasa, Noam Shomron, Duen Horng Chau, Diyi Yang, Eric Horvitz, Daniel S. Weld and Tom Hope(参考訳) 科学的課題や進歩、新たな方向性を追跡する能力は、研究の基本的な部分である。 しかし、研究者は重要な知識の発見を妨げる大量の論文に直面している。 バイオメディシンでは、これは人間の生活に直接影響する。 そこで本研究では,科学的課題と方向性の抽出と探索という新しい課題を提示し,知識発見の迅速化を図る。 我々は,様々な種類の課題や方向性にまたがる新しい意味カテゴリーをラベル付けした,専門的な注釈付きテキストコーパスを構築し,公開する。 我々は、バイオメディシンからAIや経済学などの分野まで、COVID-19パンデミックに関連する学際的作業の大規模なコーパスに焦点を当てる。 データにトレーニングされたモデルを適用して、コーパス全体の課題や方向を特定し、この情報のための専用の検索エンジンを構築します。 新型コロナウイルスを直接研究する研究者を含む研究者との研究では、知識発見を支援するために人気のある科学検索エンジンを上回っています。 最後に、我々の資源で訓練されたモデルがより広いバイオメディカル領域に一般化し、その幅広い実用性を強調していることを示す。 データ、モデル、検索エンジンを公開しています。 https://challenges.a pps.allenai.org

The ability to keep track of scientific challenges, advances and emerging directions is a fundamental part of research. However, researchers face a flood of papers that hinders discovery of important knowledge. In biomedicine, this directly impacts human lives. To address this problem, we present a novel task of extraction and search of scientific challenges and directions, to facilitate rapid knowledge discovery. We construct and release an expert-annotated corpus of texts sampled from full-length papers, labeled with novel semantic categories that generalize across many types of challenges and directions. We focus on a large corpus of interdisciplinary work relating to the COVID-19 pandemic, ranging from biomedicine to areas such as AI and economics. We apply a model trained on our data to identify challenges and directions across the corpus and build a dedicated search engine for this information. In studies with researchers, including those working directly on COVID-19, we outperform a popular scientific search engine in assisting knowledge discovery. Finally, we show that models trained on our resource generalize to the wider biomedical domain, highlighting its broad utility. We make our data, model and search engine publicly available. https://challenges.a pps.allenai.org
翻訳日:2021-09-01 14:25:17 公開日:2021-08-31
# ソーシャルメディアにおける感情の絵文字化:縦断的twitter感情データセットの収集と分析

The emojification of sentiment on social media: Collection and analysis of a longitudinal Twitter sentiment dataset ( http://arxiv.org/abs/2108.13898v1 )

ライセンス: Link先を確認
Wenjie Yin, Rabab Alkhalifa, Arkaitz Zubiaga(参考訳) ソーシャルメディアは、コンピュータによるコミュニケーションの手段として、イベントやトピックに関するユーザによる感情の研究に広く利用されている。 しかし、ソーシャルメディアにおける感情の進化に関する縦断的な研究にはギャップがある。 このギャップを埋めるために、TM-Sentiを開発した。これはTwitterの感情データセットで、1億1400万以上のツイートと7年以上の期間をカバーしている。 我々は,大規模なエモティコンと絵文字に基づくラベル付き感情分析データセットと,得られたデータセットの分析を行うための方法論を記述し,評価する。 私たちの分析では絵文字のエモティコンへの利用の増加など、興味深い時間的変化が強調されている。 我々は、感情分析やツイートのテキスト分類などのタスクに関するさらなる研究のためにデータセットを公開する。 データセットは、ツイートメタデータを含む完全なリハイドが可能で、データセットがベースとするインターネットアーカイブで公開されているツイートのアーカイブのおかげで、欠落したつぶやきがなくなる。

Social media, as a means for computer-mediated communication, has been extensively used to study the sentiment expressed by users around events or topics. There is however a gap in the longitudinal study of how sentiment evolved in social media over the years. To fill this gap, we develop TM-Senti, a new large-scale, distantly supervised Twitter sentiment dataset with over 184 million tweets and covering a time period of over seven years. We describe and assess our methodology to put together a large-scale, emoticon- and emoji-based labelled sentiment analysis dataset, along with an analysis of the resulting dataset. Our analysis highlights interesting temporal changes, among others in the increasing use of emojis over emoticons. We publicly release the dataset for further research in tasks including sentiment analysis and text classification of tweets. The dataset can be fully rehydrated including tweet metadata and without missing tweets thanks to the archive of tweets publicly available on the Internet Archive, which the dataset is based on.
翻訳日:2021-09-01 14:24:56 公開日:2021-08-31
# 単一画像デフォーカスデブラリングのための反復フィルタ適応ネットワーク

Iterative Filter Adaptive Network for Single Image Defocus Deblurring ( http://arxiv.org/abs/2108.13610v1 )

ライセンス: Link先を確認
Junyong Lee, Hyeongseok Son, Jaesung Rim, Sunghyun Cho, and Seungyong Lee(参考訳) 単一画像のデフォーカスを損なう新しいエンドツーエンドの学習手法を提案する。 提案手法は,空間変動や大きなデフォーカスボケを扱うために設計された,新しい反復フィルタ適応ネットワーク (ifan) を備える。 空間的に変化するぼかしを適応的に処理するために、IFANは、入力画像のデフォーカス特徴に適用して、デフォーカス特徴を生成する画素単位のデブルリングフィルタを予測する。 大きなぼかしを効果的に管理するために、IFANモデルは小さな分離可能なフィルタのスタックとしてフィルタをデブロリングする。 新たなIAC(Iterative Adaptive Convolution)層を用いて,デフォーカス機能に対して,予測可能な分離性デブロアリングフィルタを適用した。 また,デフォーカス不一致推定とリブラリングに基づくトレーニングスキームを提案し,デブラリング品質を著しく向上させる。 本手法は実世界画像上で定量的かつ定性的に最先端のパフォーマンスを実現することを実証する。

We propose a novel end-to-end learning-based approach for single image defocus deblurring. The proposed approach is equipped with a novel Iterative Filter Adaptive Network (IFAN) that is specifically designed to handle spatially-varying and large defocus blur. For adaptively handling spatially-varying blur, IFAN predicts pixel-wise deblurring filters, which are applied to defocused features of an input image to generate deblurred features. For effectively managing large blur, IFAN models deblurring filters as stacks of small-sized separable filters. Predicted separable deblurring filters are applied to defocused features using a novel Iterative Adaptive Convolution (IAC) layer. We also propose a training scheme based on defocus disparity estimation and reblurring, which significantly boosts the deblurring quality. We demonstrate that our method achieves state-of-the-art performance both quantitatively and qualitatively on real-world images.
翻訳日:2021-09-01 14:24:29 公開日:2021-08-31
# 口腔上皮異形成における核発生と層分画の同時解析

Simultaneous Nuclear Instance and Layer Segmentation in Oral Epithelial Dysplasia ( http://arxiv.org/abs/2108.13904v1 )

ライセンス: Link先を確認
Adam J. Shephard, Simon Graham, R.M. Saad Bashir, Mostafa Jahanifar, Hanya Mahmood, Syed Ali Khurram, Nasir M. Rajpoot(参考訳) 口腔上皮性異形成症(OED)は,口腔病変に対する術前の病理組織学的診断である。 早期発見と適切な治療には, oedグレードの予測や悪性腫瘍への移行が不可欠である。 OEDは典型的に上皮の下部3分の1から順に進行し, 硬度で進行するので, 個々の核に加え, 上皮内層を分断することで, 悪性度予測に重要な層特異的な形態的特徴を評価できる可能性が示唆された。 深層学習フレームワークHoVer-Net+について,H&Eステンディングスライディングスライディングスライディングスにおける原子核と層間(層間)を同時に分割し,分類する。 提案するアーキテクチャは、エンコーダブランチと4つのデコーダブランチで構成され、核のインスタンスセグメンテーションと上皮層のセマンティックセグメンテーションを同時に行う。 提案手法は,従来の sota 法と比較してコストを増すことなく,両タスクの最先端 (sota) 性能を実現することを示す。 我々の知識を最大限に活用するために、我々の研究は、他の類似した同時タスクの計算病理学や、悪性度予測の今後の研究に応用可能な、核インスタンス分割とセマンティック組織分割を同時に行うための最初の方法である。

Oral epithelial dysplasia (OED) is a pre-malignant histopathological diagnosis given to lesions of the oral cavity. Predicting OED grade or whether a case will transition to malignancy is critical for early detection and appropriate treatment. OED typically begins in the lower third of the epithelium before progressing upwards with grade severity, thus we have suggested that segmenting intra-epithelial layers, in addition to individual nuclei, may enable researchers to evaluate important layer-specific morphological features for grade/malignancy prediction. We present HoVer-Net+, a deep learning framework to simultaneously segment (and classify) nuclei and (intra-)epithelial layers in H&E stained slides from OED cases. The proposed architecture consists of an encoder branch and four decoder branches for simultaneous instance segmentation of nuclei and semantic segmentation of the epithelial layers. We show that the proposed model achieves the state-of-the-art (SOTA) performance in both tasks, with no additional costs when compared to previous SOTA methods for each task. To the best of our knowledge, ours is the first method for simultaneous nuclear instance segmentation and semantic tissue segmentation, with potential for use in computational pathology for other similar simultaneous tasks and for future studies into malignancy prediction.
翻訳日:2021-09-01 14:24:14 公開日:2021-08-31
# 超短パルスX線自由電子レーザーのAIによるオンラインキャラクタリゼーションと整形に向けて

Toward AI-enhanced online-characterizat ion and shaping of ultrashort X-ray free-electron laser pulses ( http://arxiv.org/abs/2108.13979v1 )

ライセンス: Link先を確認
Kristina Dingel, Thorsten Otto, Lutz Marder, Lars Funke, Arne Held, Sara Savio, Andreas Hans, Gregor Hartmann, David Meier, Jens Viefhaus, Bernhard Sick, Arno Ehresmann, Markus Ilchen, Wolfram Helml(参考訳) 世界で最も輝かしい光源であるx線自由電子レーザー(xfels)は、通常フェムト秒のオーダーで持続する超短x線パルスを提供する。 最近、彼らは1分子イメージングと局所電子力学のような非線形および超高速現象の研究の新しい約束を掲げるアト秒体制に接近し参入した。 しかし、超高速過程の精密な計測のための制御可能な光源へのxfelの技術進化は、アト秒フロンティアにおけるx線パルスを特徴付ける診断能力によって妨げられた。 この観点から、光電子角ストライキングの分光学的手法は、XFELパルスの正確な時間エネルギー構造を単一ショットベースで非破壊的に回収する方法を証明した。 人工知能アルゴリズム、特に畳み込みニューラルネットワークを用いて、この手法をxfelsでの日常的な診断に向けて原理実証段階から活用し、関連するすべての分野における科学的アクセスの強化と洗練を行う方法を示す。

X-ray free-electron lasers (XFELs) as the world`s most brilliant light sources provide ultrashort X-ray pulses with durations typically on the order of femtoseconds. Recently, they have approached and entered the attosecond regime, which holds new promises for single-molecule imaging and studying nonlinear and ultrafast phenomena like localized electron dynamics. The technological evolution of XFELs toward well-controllable light sources for precise metrology of ultrafast processes was, however, hampered by the diagnostic capabilities for characterizing X-ray pulses at the attosecond frontier. In this regard, the spectroscopic technique of photoelectron angular streaking has successfully proven how to non-destructively retrieve the exact time-energy structure of XFEL pulses on a single-shot basis. By using artificial intelligence algorithms, in particular convolutional neural networks, we here show how this technique can be leveraged from its proof-of-principle stage toward routine diagnostics at XFELs, thus enhancing and refining their scientific access in all related disciplines.
翻訳日:2021-09-01 14:23:46 公開日:2021-08-31
# DeepTaskAPT:タスクツリーに基づくディープラーニングによる内部APT検出

DeepTaskAPT: Insider APT detection using Task-tree based Deep Learning ( http://arxiv.org/abs/2108.13989v1 )

ライセンス: Link先を確認
Mohammad Mamun and Kevin Shi(参考訳) APT(Advanced Persistent Threat)は、サイバー防衛において難しい課題である。 これらの脅威は、ネットワークにアクセスし、ネットワーク内にあるインサイダーであるために、多くの従来の防御を非効率にする。 本稿では,lstm(long short-term memory)ニューラルネットワークを用いてタスクのシーケンスに基づくベースラインモデルを構築するための,異種タスクツリーに基づくディープラーニング手法であるdeeptaskaptを提案する。 シーケンシャルなログエントリに直接モデルを適用するのではなく、deeptaskaptはプロセスツリーベースのタスク生成手法を適用して、ディープラーニングモデルのためにシーケンシャルなログエントリを生成する。 DeepTaskAPTの性能を評価するために、最近リリースされた合成データセットであるDARPA Operationally Transparent Computing(OpTC)データセットと、実世界のデータセットであるLos Alamos National Laboratory(LANL)データセットを使用する。 どちらも、センサーから収集されたホストベースのデータで構成されている。 以上の結果から,DeepTaskAPTは同様のアプローチよりも優れていることがわかった。 DeepLogとDeepTaskAPTベースラインモデルは、高い精度と低い偽陽性率を持ちながら、さまざまな攻撃シナリオにおける悪意のあるトレースを検出する能力を示している。 知る限りでは、これは最近導入されたOPTCデータセットをサイバー脅威検出に使用するための最初の試みである。

APT, known as Advanced Persistent Threat, is a difficult challenge for cyber defence. These threats make many traditional defences ineffective as the vulnerabilities exploited by these threats are insiders who have access to and are within the network. This paper proposes DeepTaskAPT, a heterogeneous task-tree based deep learning method to construct a baseline model based on sequences of tasks using a Long Short-Term Memory (LSTM) neural network that can be applied across different users to identify anomalous behaviour. Rather than applying the model to sequential log entries directly, as most current approaches do, DeepTaskAPT applies a process tree based task generation method to generate sequential log entries for the deep learning model. To assess the performance of DeepTaskAPT, we use a recently released synthetic dataset, DARPA Operationally Transparent Computing (OpTC) dataset and a real-world dataset, Los Alamos National Laboratory (LANL) dataset. Both of them are composed of host-based data collected from sensors. Our results show that DeepTaskAPT outperforms similar approaches e.g. DeepLog and the DeepTaskAPT baseline model demonstrate its capability to detect malicious traces in various attack scenarios while having high accuracy and low false-positive rates. To the best of knowledge this is the very first attempt of using recently introduced OpTC dataset for cyber threat detection.
翻訳日:2021-09-01 14:23:29 公開日:2021-08-31
# 繰り返し測定による部分線形混合効果モデルのダブル機械学習

Double Machine Learning for Partially Linear Mixed-Effects Models with Repeated Measurements ( http://arxiv.org/abs/2108.13657v1 )

ライセンス: Link先を確認
Corinne Emmenegger and Peter B\"uhlmann(参考訳) 伝統的に、パラメトリック推定と組み合わせたスプラインまたはカーネルアプローチは、繰り返し測定するために部分的に線形混合効果モデル(PLMM)における線形係数(固定効果)を推定するために用いられる。 機械学習アルゴリズムを使うことで、より複雑な相互作用構造と高次元変数を組み込むことができる。 非線形変数は線形変数と応答の両方から非パラメトリックに回帰される。 この調整は、任意の機械学習アルゴリズム、例えばランダムフォレストで行うことができる。 調整された変数は線形混合効果モデルを満たすが、線形係数は標準線形混合効果法で推定できる。 推定された固定効果係数がパラメトリックレートで収束し、漸近的にガウス分布および半パラメトリック効率がよいことを示す。 実例で提案するアルゴリズムを示す。 本研究はHIV患者からのCD4細胞数を繰り返し解析する2つのシミュレーション研究である。 我々のメソッドのソフトウェアコードはR-package dmlalgで利用可能です。

Traditionally, spline or kernel approaches in combination with parametric estimation are used to infer the linear coefficient (fixed effects) in a partially linear mixed-effects model (PLMM) for repeated measurements. Using machine learning algorithms allows us to incorporate more complex interaction structures and high-dimensional variables. We employ double machine learning to cope with the nonparametric part of the PLMM: the nonlinear variables are regressed out nonparametrically from both the linear variables and the response. This adjustment can be performed with any machine learning algorithm, for instance random forests. The adjusted variables satisfy a linear mixed-effects model, where the linear coefficient can be estimated with standard linear mixed-effects techniques. We prove that the estimated fixed effects coefficient converges at the parametric rate and is asymptotically Gaussian distributed and semiparametrically efficient. Empirical examples demonstrate our proposed algorithm. We present two simulation studies and analyze a dataset with repeated CD4 cell counts from HIV patients. Software code for our method is available in the R-package dmlalg.
翻訳日:2021-09-01 14:23:06 公開日:2021-08-31
# 非パラメトリック混合モデルにおける均一性

Uniform Consistency in Nonparametric Mixture Models ( http://arxiv.org/abs/2108.14003v1 )

ライセンス: Link先を確認
Bryon Aragam and Ruiyi Yang(参考訳) 非パラメトリック混合モデルにおける一様整合性と、回帰関数が非パラメトリックであることが認められ、誤差分布がガウス密度の畳み込みであると仮定される回帰モデル(混合回帰モデルとも呼ばれる)の密接に関連する混合について検討する。 一般条件下で一様一貫した推定器を構築し、同時に既存の一貫した結果から一貫した結果へと拡張する際の痛点をいくつか強調する。 その結果、分析は簡単ではないことが判明し、その過程でいくつかの新しい技術ツールが開発されている。 混合回帰の場合、成分回帰関数が任意に頻繁に交わることを可能にしながら、回帰関数の$l^1$収束を証明し、さらなる技術的課題を提起する。 一般(つまり)への一般化も検討する。 非畳み込みの)非パラメトリック混合物。

We study uniform consistency in nonparametric mixture models as well as closely related mixture of regression (also known as mixed regression) models, where the regression functions are allowed to be nonparametric and the error distributions are assumed to be convolutions of a Gaussian density. We construct uniformly consistent estimators under general conditions while simultaneously highlighting several pain points in extending existing pointwise consistency results to uniform results. The resulting analysis turns out to be nontrivial, and several novel technical tools are developed along the way. In the case of mixed regression, we prove $L^1$ convergence of the regression functions while allowing for the component regression functions to intersect arbitrarily often, which presents additional technical challenges. We also consider generalizations to general (i.e. non-convolutional) nonparametric mixtures.
翻訳日:2021-09-01 14:22:53 公開日:2021-08-31
# ペナルティ交代最小化による単価無線フェデレーション学習

Unit-Modulus Wireless Federated Learning Via Penalty Alternating Minimization ( http://arxiv.org/abs/2108.13669v1 )

ライセンス: Link先を確認
Shuai Wang, Dachuan Li, Rui Wang, Qi Hao, Yik-Chung Wu, and Derrick Wing Kwan Ng(参考訳) Wireless Federated Learning(FL)は、分散データセットから無線通信を介してグローバルパラメトリックモデルをトレーニングする、新興機械学習パラダイムである。 本稿では,局所モデルパラメータを同時にアップロードし,位相シフトを最適化したグローバルモデルパラメータを演算するユニットモジュラー無線FL(UMWFL)フレームワークを提案する。 提案するフレームワークは、高度なベースバンド信号処理を回避し、低通信遅延と実装コストの両方をもたらす。 トレーニング損失境界が導出され、非凸非平滑損失境界を最小化するために、ペナルティ変動最小化(PAM)アルゴリズムが提案される。 カーラーニング・トゥ・アクト (CARLA) プラットフォームにおける実験結果から,提案した PAM アルゴリズムを用いた UMWFL フレームワークは,ベンチマーク方式よりもトレーニング損失やテスト誤差が小さくなることが示された。

Wireless federated learning (FL) is an emerging machine learning paradigm that trains a global parametric model from distributed datasets via wireless communications. This paper proposes a unit-modulus wireless FL (UMWFL) framework, which simultaneously uploads local model parameters and computes global model parameters via optimized phase shifting. The proposed framework avoids sophisticated baseband signal processing, leading to both low communication delays and implementation costs. A training loss bound is derived and a penalty alternating minimization (PAM) algorithm is proposed to minimize the nonconvex nonsmooth loss bound. Experimental results in the Car Learning to Act (CARLA) platform show that the proposed UMWFL framework with PAM algorithm achieves smaller training losses and testing errors than those of the benchmark scheme.
翻訳日:2021-09-01 14:22:19 公開日:2021-08-31
# 不均一グラフコントラスト学習のための構造認識型ハード負マイニング

Structure-Aware Hard Negative Mining for Heterogeneous Graph Contrastive Learning ( http://arxiv.org/abs/2108.13886v1 )

ライセンス: Link先を確認
Yanqiao Zhu, Yichen Xu, Hejie Cui, Carl Yang, Qiang Liu, Shu Wu(参考訳) 近年、ヘテロジニアスグラフニューラルネットワーク(GNN)はHGを解析するためのデファクトモデルとなり、そのほとんどは比較的多くのラベル付きデータに依存している。 本研究では,自己教師型アプローチにおける鍵となるコントラスト学習(CL)について,ラベル不足問題を軽減するためのHGについて検討する。 まず、メタパスとネットワークスキーマに基づいて複数のセマンティックビューを生成します。 そして、異なるセマンティックビューに対応するノード埋め込みを互いに近く(ポジティブ)し、他の埋め込みを分離(ネガティブ)することで、人間のアノテーションなしで情報表現を得ることができる。 しかし、このclアプローチは負のサンプルの相対的硬さを無視し、それが最適でない性能をもたらす可能性がある。 複素グラフ構造とGNNの滑らかな性質を考慮し,HGの構造特性による硬さを計測する構造対応型負のマイニング手法を提案する。 より負のノードを合成することにより、計算オーバーヘッドに制限のあるより強い負の重みを与え、性能をさらに向上させる。 3つの実世界のデータセットに関する実証研究により,提案手法の有効性が示された。 提案手法は,既存の最先端手法を一貫して上回っており,特に教師付き手法を上回っている。

Recently, heterogeneous Graph Neural Networks (GNNs) have become a de facto model for analyzing HGs, while most of them rely on a relative large number of labeled data. In this work, we investigate Contrastive Learning (CL), a key component in self-supervised approaches, on HGs to alleviate the label scarcity problem. We first generate multiple semantic views according to metapaths and network schemas. Then, by pushing node embeddings corresponding to different semantic views close to each other (positives) and pulling other embeddings apart (negatives), one can obtain informative representations without human annotations. However, this CL approach ignores the relative hardness of negative samples, which may lead to suboptimal performance. Considering the complex graph structure and the smoothing nature of GNNs, we propose a structure-aware hard negative mining scheme that measures hardness by structural characteristics for HGs. By synthesizing more negative nodes, we give larger weights to harder negatives with limited computational overhead to further boost the performance. Empirical studies on three real-world datasets show the effectiveness of our proposed method. The proposed method consistently outperforms existing state-of-the-art methods and notably, even surpasses several supervised counterparts.
翻訳日:2021-09-01 14:22:04 公開日:2021-08-31
# EG-Booster: MLエクスポーテーションアタックの解説ガイド付きブースター

EG-Booster: Explanation-Guided Booster of ML Evasion Attacks ( http://arxiv.org/abs/2108.13930v1 )

ライセンス: Link先を確認
Abderrahmen Amich and Birhanu Eshete(参考訳) 多数のドメインで機械学習(ML)が広く使用されていることで、セキュリティクリティカルな環境における信頼性に関する疑問が持ち上がっている。 信頼できるMLの探求の1つは、テストタイムの敵例に対するMLモデルの堅牢性評価である。 信頼に値するml目標に沿って、堅牢性評価に役立つ有用なインプットは、モデル予測の機能ベースの説明である。 本稿では,EG-Boosterと呼ばれる新しい手法を提案する。この手法は,MLモデルのロバスト性評価を改善するために,説明可能なMLのテクニックを活用して,セキュリティクリティカルな設定にデプロイする。 EG-Boosterにおける重要な洞察は、モデル予測の特徴に基づく説明を用いて、モデル回避につながる可能性のある連続的な摂動を追加し、非連続的な予測が回避に寄与しそうにないことを避けることで、敵のサンプル作成を導くことである。 EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。 画像分類ベンチマークデータセットMNISTとCIFAR10を用いてEG-Boosterを評価する。 以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。 4つのホワイトボックスと3つのブラックボックス攻撃をカバーする広範な実験を通じて、MNISTとCIFAR10でトレーニングされた2つの未防御ニューラルネットワークと、CIFAR10でトレーニングされた別の逆トレーニングされたResNetモデルに対するEG-Boosterの有効性を実証する。 さらに,安定度評価尺度を導入し,EG-Boosterの複数回にわたるモデル分類出力の類似性を観察することにより,説明に基づくアプローチの信頼性を評価する。

The widespread usage of machine learning (ML) in a myriad of domains has raised questions about its trustworthiness in security-critical environments. Part of the quest for trustworthy ML is robustness evaluation of ML models to test-time adversarial examples. Inline with the trustworthy ML goal, a useful input to potentially aid robustness evaluation is feature-based explanations of model predictions. In this paper, we present a novel approach called EG-Booster that leverages techniques from explainable ML to guide adversarial example crafting for improved robustness evaluation of ML models before deploying them in security-critical settings. The key insight in EG-Booster is the use of feature-based explanations of model predictions to guide adversarial example crafting by adding consequential perturbations likely to result in model evasion and avoiding non-consequential ones unlikely to contribute to evasion. EG-Booster is agnostic to model architecture, threat model, and supports diverse distance metrics used previously in the literature. We evaluate EG-Booster using image classification benchmark datasets, MNIST and CIFAR10. Our findings suggest that EG-Booster significantly improves evasion rate of state-of-the-art attacks while performing less number of perturbations. Through extensive experiments that covers four white-box and three black-box attacks, we demonstrate the effectiveness of EG-Booster against two undefended neural networks trained on MNIST and CIFAR10, and another adversarially-traine d ResNet model trained on CIFAR10. Furthermore, we introduce a stability assessment metric and evaluate the reliability of our explanation-based approach by observing the similarity between the model's classification outputs across multiple runs of EG-Booster.
翻訳日:2021-09-01 14:21:42 公開日:2021-08-31
# Morphence: 敵の事例に対する標的防御の移動

Morphence: Moving Target Defense Against Adversarial Examples ( http://arxiv.org/abs/2108.13952v1 )

ライセンス: Link先を確認
Abderrahmen Amich and Birhanu Eshete(参考訳) 機械学習モデルの敵対的な例に対する堅牢性は、いまだ研究のオープントピックである。 攻撃はしばしば、それを騙すために意図的に作られた敵の例で固定されたターゲットモデルを何度も探すことで成功する。 本稿では,モデルを敵の例に対して移動目標にすることで,防御景観を変える手法であるMorphenceを紹介する。 モデルの決定関数を定期的に移動させることで、Morphenceは繰り返しまたは関連する攻撃が成功するのを著しく困難にする。 Morphenceはベースモデルから生成されたモデルのプールを、予測クエリに応答するときに十分なランダム性をもたらす方法で展開する。 繰り返しまたは相関攻撃が失敗することを保証するため、クエリ予算に達した後、モデルのデプロイプールが自動的に終了し、モデルプールが予め生成された新しいモデルプールにシームレスに置き換えられる。 ベンチマーク画像分類データセット(MNISTとCIFAR10)を5つの参照攻撃(2つのホワイトボックスと3つのブラックボックス)に対してMorphenceを評価する。 あらゆるケースにおいて、Morphenceは、クリーンなデータに対する正確さを維持しながら、強力なホワイトボックス攻撃に直面した場合でも、より長期的な効果的な防御、敵の訓練を一貫して上回ります。

Robustness to adversarial examples of machine learning models remains an open topic of research. Attacks often succeed by repeatedly probing a fixed target model with adversarial examples purposely crafted to fool it. In this paper, we introduce Morphence, an approach that shifts the defense landscape by making a model a moving target against adversarial examples. By regularly moving the decision function of a model, Morphence makes it significantly challenging for repeated or correlated attacks to succeed. Morphence deploys a pool of models generated from a base model in a manner that introduces sufficient randomness when it responds to prediction queries. To ensure repeated or correlated attacks fail, the deployed pool of models automatically expires after a query budget is reached and the model pool is seamlessly replaced by a new model pool generated in advance. We evaluate Morphence on two benchmark image classification datasets (MNIST and CIFAR10) against five reference attacks (2 white-box and 3 black-box). In all cases, Morphence consistently outperforms the thus-far effective defense, adversarial training, even in the face of strong white-box attacks, while preserving accuracy on clean data.
翻訳日:2021-09-01 14:21:14 公開日:2021-08-31
# oarnet:頭頸部ct画像における自動臓器・リスクデライン化

OARnet: Automated organs-at-risk delineation in Head and Neck CT images ( http://arxiv.org/abs/2108.13987v1 )

ライセンス: Link先を確認
Mumtaz Hussain Soomro, Hamidreza Nourzadeh, Victor Gabriel Leandro Alves, Wookjin Choi, Jeffrey V. Siebers(参考訳) 3次元深層学習モデル(OARnet)を開発し,28個のH&N OARをCT画像上に記述する。 OARnetは密結合ネットワークを使用してOARバウンディングボックスを検出し、ボックス内でOARをデライン化する。 任意のレイヤから次のレイヤに情報を再利用し、スキップ接続を使用して異なる密度のブロックレベルの情報を組み合わせて、徐々にデライン化精度を向上させる。 トレーニングでは165個のCTから28個の専門的マニュアルデライン化(MD)OARを使用する。 MDに対するDice similarity coefficient (DSC) と95%のHausdorff distance (HD95) を70のCTで評価した。 70例中56例において, MDに対する平均, 最大, ルート平均2乗線量差を評価した。 OARnetはUaNet、AnatomyNet、Multi-Atlas Segmentation (MAS)と比較される。 95%信頼区間を用いたウィルコクソンの署名ランク試験は、重要度を評価するために用いられる。 ウィルコクソンはUaNetと比較して(p<0.05)DSC(23/28 OAR)とHD95(17/28)を改善した。 OARnet は AnatomyNet と MAS for DSC (28/28) と HD95 (27/28) より優れている。 UaNetと比較して、OARnetは中央値のDSCを0.05、HD95を1.5mmに改善している。 AnatomyNetやMASと比較して、OARnetは中央値(DSC, HD95)を0.08, 2.7mmと0.17, 6.3mmに改善する。 OARnetはUaNet(Dmax 7/28; Dmean 10/28)、AnatomyNet(Dmax 21/28; Dmean 24/28)、MAS(Dmax 22/28; Dmean 21/28)より優れている。 DenseNetアーキテクチャは、OAR固有のバウンディングボックス検出と機能認識を行うハイブリッドアプローチを使って最適化されている。 他の自動デライン法と比較して、OARnetは1つの幾何(Temporal Lobe L, HD95)と1つのドシメトリック(Eye L, mean dose)エンドポイントを除く全ての幾何学的(Temporal Lobe L, HD95)ではUaNetより優れており、全てのOARではAnatomyNetとMASより優れている。

A 3D deep learning model (OARnet) is developed and used to delineate 28 H&N OARs on CT images. OARnet utilizes a densely connected network to detect the OAR bounding-box, then delineates the OAR within the box. It reuses information from any layer to subsequent layers and uses skip connections to combine information from different dense block levels to progressively improve delineation accuracy. Training uses up to 28 expert manual delineated (MD) OARs from 165 CTs. Dice similarity coefficient (DSC) and the 95th percentile Hausdorff distance (HD95) with respect to MD is assessed for 70 other CTs. Mean, maximum, and root-mean-square dose differences with respect to MD are assessed for 56 of the 70 CTs. OARnet is compared with UaNet, AnatomyNet, and Multi-Atlas Segmentation (MAS). Wilcoxon signed-rank tests using 95% confidence intervals are used to assess significance. Wilcoxon signed ranked tests show that, compared with UaNet, OARnet improves (p<0.05) the DSC (23/28 OARs) and HD95 (17/28). OARnet outperforms both AnatomyNet and MAS for DSC (28/28) and HD95 (27/28). Compared with UaNet, OARnet improves median DSC up to 0.05 and HD95 up to 1.5mm. Compared with AnatomyNet and MAS, OARnet improves median (DSC, HD95) by up to (0.08, 2.7mm) and (0.17, 6.3mm). Dosimetrically, OARnet outperforms UaNet (Dmax 7/28; Dmean 10/28), AnatomyNet (Dmax 21/28; Dmean 24/28), and MAS (Dmax 22/28; Dmean 21/28). The DenseNet architecture is optimized using a hybrid approach that performs OAR-specific bounding box detection followed by feature recognition. Compared with other auto-delineation methods, OARnet is better than or equal to UaNet for all but one geometric (Temporal Lobe L, HD95) and one dosimetric (Eye L, mean dose) endpoint for the 28 H&N OARs, and is better than or equal to both AnatomyNet and MAS for all OARs.
翻訳日:2021-09-01 14:20:55 公開日:2021-08-31
# WarpDrive:GPUによる極端に高速なエンドツーエンドのマルチエージェント強化学習

WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU ( http://arxiv.org/abs/2108.13976v1 )

ライセンス: Link先を確認
Tian Lan, Sunil Srinivasa, Stephan Zheng(参考訳) 深層強化学習は複雑な動的環境下で意思決定モデルを訓練するための強力なフレームワークである。 しかし、RLは環境シミュレーションとの繰り返しの相互作用を通じて学習するので、遅くなる可能性がある。 RLの高速化にはアルゴリズムとエンジニアリングの革新が必要だ。 特に、複数のエージェントや高次元の状態、観察、行動空間を特徴とする複雑な環境でRLを使用する場合、重要なシステムエンジニアリングボトルネックがある。 我々は,PyCUDAとPyTorch上に構築された,単一のGPU(Graphics Processing Unit)上にエンドツーエンドのマルチエージェントRLを実装する,フレキシブルで軽量で使いやすいオープンソースRLフレームワークであるWarpDriveを紹介する。 gpuの極端な並列化機能を使用して、warpdriveはcpuシミュレーションとgpuモデルをブレンドする一般的な実装と比較して、桁違いにrlを高速化する。 私たちの設計はシミュレーションとエージェントを並行して実行します。 CPUとGPU間のデータのコピーをなくす。 また、gpu上の単一のシミュレーションデータストアを使用して、安全に更新される。 これにより、ユーザーは何千もの同時マルチエージェントシミュレーションを実行し、非常に大きな経験のバッチでトレーニングすることができる。 例えば、ベンチマークTagシミュレーションでは、2000の環境と1000のエージェント(CPU実装の100倍高いスループット)で290万の環境ステップ/秒が生成される。 WarpDriveは軽量のPythonインターフェースと環境ラッパーを提供し、使用をシンプルにし、柔軟性と拡張を促進する。 したがって、WarpDriveは高スループットのRLシステムを構築するためのフレームワークを提供する。

Deep reinforcement learning (RL) is a powerful framework to train decision-making models in complex dynamical environments. However, RL can be slow as it learns through repeated interaction with a simulation of the environment. Accelerating RL requires both algorithmic and engineering innovations. In particular, there are key systems engineering bottlenecks when using RL in complex environments that feature multiple agents or high-dimensional state, observation, or action spaces, for example. We present WarpDrive, a flexible, lightweight, and easy-to-use open-source RL framework that implements end-to-end multi-agent RL on a single GPU (Graphics Processing Unit), building on PyCUDA and PyTorch. Using the extreme parallelization capability of GPUs, WarpDrive enables orders-of-magnitude faster RL compared to common implementations that blend CPU simulations and GPU models. Our design runs simulations and the agents in each simulation in parallel. It eliminates data copying between CPU and GPU. It also uses a single simulation data store on the GPU that is safely updated in-place. Together, this allows the user to run thousands of concurrent multi-agent simulations and train on extremely large batches of experience. For example, WarpDrive yields 2.9 million environment steps/second with 2000 environments and 1000 agents (at least 100x higher throughput compared to a CPU implementation) in a benchmark Tag simulation. WarpDrive provides a lightweight Python interface and environment wrappers to simplify usage and promote flexibility and extensions. As such, WarpDrive provides a framework for building high-throughput RL systems.
翻訳日:2021-09-01 14:19:27 公開日:2021-08-31
# PDEと変分法による回転不変ニューラルネットワークの設計

Designing Rotationally Invariant Neural Networks from PDEs and Variational Methods ( http://arxiv.org/abs/2108.13993v1 )

ライセンス: Link先を確認
Tobias Alt, Karl Schrader, Joachim Weickert, Pascal Peter, Matthias Augustin(参考訳) 偏微分方程式(PDE)モデルとその関連する変動エネルギーの定式化は、しばしば設計によって回転不変である。 これにより、入力の回転が対応する出力の回転をもたらすことが保証され、画像解析のようなアプリケーションで望ましい。 畳み込みニューラルネットワーク(CNN)はこの性質を共有しておらず、既存の治療法はしばしば複雑である。 本研究の目的は,拡散モデルと変動モデルが回転不変性を実現し,これらのアイデアをニューラルネットワークに伝達する方法を検討することである。 コアノベルティとして、複数の指向フィルタの情報を組み合わせてネットワークチャネルを結合するアクティベーション関数を提案する。 これにより、ネットワークの基本構造ブロック内での回転不変性が保証され、なおも方向フィルタリングが可能である。 結果として生じる神経構造は本質的に回転不変である。 少数の小さなフィルタで、方向の細かなサンプリングを必要とする既存の技術と同じ不変性を達成することができる。 本研究は,拡散モデルと変分モデルを数学的に確立されたネットワークアーキテクチャに変換し,モデルベースCNN設計のための新しい概念を提供するのに役立つ。

Partial differential equation (PDE) models and their associated variational energy formulations are often rotationally invariant by design. This ensures that a rotation of the input results in a corresponding rotation of the output, which is desirable in applications such as image analysis. Convolutional neural networks (CNNs) do not share this property, and existing remedies are often complex. The goal of our paper is to investigate how diffusion and variational models achieve rotation invariance and transfer these ideas to neural networks. As a core novelty we propose activation functions which couple network channels by combining information from several oriented filters. This guarantees rotation invariance within the basic building blocks of the networks while still allowing for directional filtering. The resulting neural architectures are inherently rotationally invariant. With only a few small filters, they can achieve the same invariance as existing techniques which require a fine-grained sampling of orientations. Our findings help to translate diffusion and variational models into mathematically well-founded network architectures, and provide novel concepts for model-based CNN design.
翻訳日:2021-09-01 14:19:00 公開日:2021-08-31
# (参考訳) バイオメディカルおよびCOVID-19問題に対する理想的な回答を見つけるための質問文抽出要約 [全文訳有]

Query-Focused Extractive Summarisation for Finding Ideal Answers to Biomedical and COVID-19 Questions ( http://arxiv.org/abs/2108.12189v2 )

ライセンス: CC BY 4.0
Diego Moll\'a, Urvashi Khanna, Dima Galat, Vincent Nguyen, Maciej Rybinski(参考訳) 本稿では,マッコーリー大学のBioASQ Synergy Taskへの参加とBioASQ9bのフェーズBについて述べる。 これらの課題のそれぞれにおいて,医療質問に対する理想的な回答を得るために,問合せに焦点をあてた抽出要約の利用に焦点を当てた。 synergyタスクは、新型コロナウイルス(covid-19)に関するエンドツーエンドの質問応答タスクであり、システムは、特定の質問に対して関連するドキュメント、スニペット、回答を返す必要がある。 学習データがないことを考慮し,bioasq8bトレーニングデータセットで学習したクエリ中心の要約システムを用いて,文書とスニペットを取得する手法を実験した。 システムによって回収された文書やスニペットの質が低かったことを踏まえ,回答の質は適度に良好であった。 BioASQ9bタスクのフェーズBでは、関連するドキュメントとスニペットがテストデータにすでに含まれていた。 本システムでは,スニペットを候補文に分割し,文分類設定の下でBERT変種を用いた。 システムは,質問文と候補文を入力として使用し,その候補文が理想的な回答の一部である可能性を予測する訓練を行った。 ランは、BioASQ9bの全てのバッチに対する全ての参加者の最高のROUGE-F1の結果を得た。 このことは、分類設定でBERTを使用することが理想的な答えを特定するための非常に強力なベースラインであることを示している。

This paper presents Macquarie University's participation to the BioASQ Synergy Task, and BioASQ9b Phase B. In each of these tasks, our participation focused on the use of query-focused extractive summarisation to obtain the ideal answers to medical questions. The Synergy Task is an end-to-end question answering task on COVID-19 where systems are required to return relevant documents, snippets, and answers to a given question. Given the absence of training data, we used a query-focused summarisation system that was trained with the BioASQ8b training data set and we experimented with methods to retrieve the documents and snippets. Considering the poor quality of the documents and snippets retrieved by our system, we observed reasonably good quality in the answers returned. For phase B of the BioASQ9b task, the relevant documents and snippets were already included in the test data. Our system split the snippets into candidate sentences and used BERT variants under a sentence classification setup. The system used the question and candidate sentence as input and was trained to predict the likelihood of the candidate sentence being part of the ideal answer. The runs obtained either the best or second best ROUGE-F1 results of all participants to all batches of BioASQ9b. This shows that using BERT in a classification setup is a very strong baseline for the identification of ideal answers.
翻訳日:2021-09-01 12:36:44 公開日:2021-08-31
# (参考訳) 単一投影画像からの変形可能な形状再構成のための画像対グラフ畳み込みネットワーク [全文訳有]

Image-to-Graph Convolutional Network for Deformable Shape Reconstruction from a Single Projection Image ( http://arxiv.org/abs/2108.12533v2 )

ライセンス: CC BY 4.0
M. Nakao, F. Tong, M. Nakamura, T. Matsuda(参考訳) 二次元x線画像からの変形可能な臓器の形状再構成は画像誘導介入の重要な技術である。 本稿では,一視点投影画像からの変形可能な形状再構成のための画像間畳み込みネットワーク(IGCN)を提案する。 IGCNは、変形マッピングスキームに基づいて、形状/変形変動と深部画像特徴の関係を学習する。 腹部臓器の呼吸運動を標的とした実験では, 平均距離3.6mmの単一デジタル再構成X線写真から肝臓の形状を復元できる正規化損失関数の枠組みを確認した。

Shape reconstruction of deformable organs from two-dimensional X-ray images is a key technology for image-guided intervention. In this paper, we propose an image-to-graph convolutional network (IGCN) for deformable shape reconstruction from a single-viewpoint projection image. The IGCN learns relationship between shape/deformation variability and the deep image features based on a deformation mapping scheme. In experiments targeted to the respiratory motion of abdominal organs, we confirmed the proposed framework with a regularized loss function can reconstruct liver shapes from a single digitally reconstructed radiograph with a mean distance error of 3.6mm.
翻訳日:2021-09-01 11:56:52 公開日:2021-08-31
# (参考訳) 政府がAI開発を監視すべき理由と方法 [全文訳有]

Why and How Governments Should Monitor AI Development ( http://arxiv.org/abs/2108.12427v2 )

ライセンス: CC BY 4.0
Jess Whittlestone, Jack Clark(参考訳) 本稿では,AIシステムの能力と影響を体系的に計測し,監視する政府の能力に投資することで,人工知能(AI)のガバナンスを改善するための提案を概説する。 もし採用されれば、政府はAIエコシステムに関するより多くの情報を提供し、より効果的にAI開発と展開を最も社会的かつ経済的に有益な方向に導くことができる。 また、戦略的に変革的な能力の出現や有害なシステムの展開など、AIエコシステムの変化によって起こりうる潜在的な脅威や害を迅速に特定するインフラストラクチャも構築される。 簡単に言うと、従来のガバナンスアプローチは、AIの進歩のスピードに合わせてペースを維持するのに苦労しています。 政府はインフラの計測とモニタリングに投資しなければならない。 我々はこの提案を詳細に議論し、政府が測定と監視にフォーカスできる具体的な内容と、それが政策立案にもたらすメリットについて概説する。 最後に,いくつかのパイロットプロジェクトの概要と,実際に実施するための考慮事項について概説する。

In this paper we outline a proposal for improving the governance of artificial intelligence (AI) by investing in government capacity to systematically measure and monitor the capabilities and impacts of AI systems. If adopted, this would give governments greater information about the AI ecosystem, equipping them to more effectively direct AI development and deployment in the most societally and economically beneficial directions. It would also create infrastructure that could rapidly identify potential threats or harms that could occur as a consequence of changes in the AI ecosystem, such as the emergence of strategically transformative capabilities, or the deployment of harmful systems. We begin by outlining the problem which motivates this proposal: in brief, traditional governance approaches struggle to keep pace with the speed of progress in AI. We then present our proposal for addressing this problem: governments must invest in measurement and monitoring infrastructure. We discuss this proposal in detail, outlining what specific things governments could focus on measuring and monitoring, and the kinds of benefits this would generate for policymaking. Finally, we outline some potential pilot projects and some considerations for implementing this in practice.
翻訳日:2021-09-01 11:48:01 公開日:2021-08-31
# automlによる通信計算効率のよいデバイスエッジコカンファレンス

Communication-Comput ation Efficient Device-Edge Co-Inference via AutoML ( http://arxiv.org/abs/2108.13009v2 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, Yuyi Mao, and Jun Zhang(参考訳) リソース制約のあるモバイルデバイスとエッジサーバの間にディープニューラルネットワークを分割するデバイスエッジコ推論は、インテリジェントなモバイルアプリケーションをサポートするための有望なパラダイムとして最近登場した。 推論過程を高速化するために、オンデバイスモデルスペーシフィケーションと中間特徴圧縮を2つの顕著なテクニックとみなす。 しかし、デバイス上のモデル間隔レベルと中間特徴圧縮比はそれぞれ計算負荷と通信オーバーヘッドに直接的な影響があり、どちらも推論精度に影響を与えるため、これらのハイパーパラメータの最適値を見つけることは、大きな探索空間のために大きな課題となる。 本稿では,これらのハイパーパラメータを決定する効率的なアルゴリズムの開発に尽力する。 中間特徴ベクトルに対して適切なモデル分割点と1対のエンコーダ/デコーダを選択することで、この問題を逐次的決定問題としてキャストし、深層強化学習(drl)に基づいて新しい自動機械学習(automl)フレームワークを提案する。 画像分類タスクにおける実験結果は,様々なベースライン方式に対して,よりよい通信計算トレードオフと有意な推論高速化を実現する上で,提案手法の有効性を示すものである。

Device-edge co-inference, which partitions a deep neural network between a resource-constrained mobile device and an edge server, recently emerges as a promising paradigm to support intelligent mobile applications. To accelerate the inference process, on-device model sparsification and intermediate feature compression are regarded as two prominent techniques. However, as the on-device model sparsity level and intermediate feature compression ratio have direct impacts on computation workload and communication overhead respectively, and both of them affect the inference accuracy, finding the optimal values of these hyper-parameters brings a major challenge due to the large search space. In this paper, we endeavor to develop an efficient algorithm to determine these hyper-parameters. By selecting a suitable model split point and a pair of encoder/decoder for the intermediate feature vector, this problem is casted as a sequential decision problem, for which, a novel automated machine learning (AutoML) framework is proposed based on deep reinforcement learning (DRL). Experiment results on an image classification task demonstrate the effectiveness of the proposed framework in achieving a better communication-comput ation trade-off and significant inference speedup against various baseline schemes.
翻訳日:2021-09-01 11:30:48 公開日:2021-08-31
# 効率的なオープンドメイン会話のための大規模生成モデルの知識を検索モデルに割く

Distilling the Knowledge of Large-scale Generative Models into Retrieval Models for Efficient Open-domain Conversation ( http://arxiv.org/abs/2108.12582v2 )

ライセンス: Link先を確認
Beomsu Kim, Seokjun Seo, Seungju Han, Enkhbayar Erdenee, Buru Chang(参考訳) オープンドメイン会話における大規模生成モデルの顕著な性能にもかかわらず、レイテンシが高いためにリアルタイム会話システムを構築するには実用的でないことが知られている。 一方,検索モデルはより低レイテンシで応答を返すことができるが,会話品質は予め定義された応答セットによって制限されているため,大規模生成モデルでは性能が劣る。 両者のアプローチを生かして, 生成モデルの知識を検索モデルに取り入れることで, 大規模生成モデルの会話能力を活用しつつ, 検索モデルの効率を保ちながら, g2r (generative-to-retri eval distillation) と呼ばれる新たな訓練法を提案する。 データレベルG2Rは、大規模生成モデルによって生成された追加応答で対話データセットを増強し、モデルレベルG2Rは、生成モデルによって評価された応答品質スコアを、知識蒸留損失により検索モデルのスコアに転送する。 人間の評価を含む広範囲な実験を通して,G2Rで訓練した検索ベースの会話システムは,ベースライン検索モデルと比較して大幅に性能が向上し,大規模な生成モデルよりも推論遅延が著しく低いことを示した。

Despite the remarkable performance of large-scale generative models in open-domain conversation, they are known to be less practical for building real-time conversation systems due to high latency. On the other hand, retrieval models could return responses with much lower latency but show inferior performance to the large-scale generative models since the conversation quality is bounded by the pre-defined response set. To take advantage of both approaches, we propose a new training method called G2R (Generative-to-Retri eval distillation) that preserves the efficiency of a retrieval model while leveraging the conversational ability of a large-scale generative model by infusing the knowledge of the generative model into the retrieval model. G2R consists of two distinct techniques of distillation: the data-level G2R augments the dialogue dataset with additional responses generated by the large-scale generative model, and the model-level G2R transfers the response quality score assessed by the generative model to the score of the retrieval model by the knowledge distillation loss. Through extensive experiments including human evaluation, we demonstrate that our retrieval-based conversation system trained with G2R shows a substantially improved performance compared to the baseline retrieval model while showing significantly lower inference latency than the large-scale generative models.
翻訳日:2021-09-01 11:30:27 公開日:2021-08-31
# プロトタイプメモリによるテーブル・ツー・テキスト生成

Few-Shot Table-to-Text Generation with Prototype Memory ( http://arxiv.org/abs/2108.12516v2 )

ライセンス: Link先を確認
Yixuan Su, Zaiqiao Meng, Simon Baker, Nigel Collier(参考訳) ニューラルテーブル-テキスト生成モデルは、タスクの配列において顕著な進歩を遂げた。 しかし、ニューラルモデルのデータ不足の性質のため、彼らのパフォーマンスは大規模トレーニングの例に強く依存しており、実際のアプリケーションへの適用性を制限する。 そこで我々はP2G(Prototype-to-Gen erate)という新しいフレームワークを提案する。 提案フレームワークは、IRシステムと新しいプロトタイプセレクタによって共同で選択された検索されたプロトタイプを利用して、テーブルとテキスト間の構造的ギャップを埋めるモデルを支援する。 3つの最先端モデルを用いた3つのベンチマークデータセットの実験結果から,提案手法は各種評価指標のモデル性能を著しく改善することが示された。

Neural table-to-text generation models have achieved remarkable progress on an array of tasks. However, due to the data-hungry nature of neural models, their performances strongly rely on large-scale training examples, limiting their applicability in real-world applications. To address this, we propose a new framework: Prototype-to-Generat e (P2G), for table-to-text generation under the few-shot scenario. The proposed framework utilizes the retrieved prototypes, which are jointly selected by an IR system and a novel prototype selector to help the model bridging the structural gap between tables and texts. Experimental results on three benchmark datasets with three state-of-the-art models demonstrate that the proposed framework significantly improves the model performance across various evaluation metrics.
翻訳日:2021-09-01 11:30:04 公開日:2021-08-31
# ニューラルネットワーク翻訳のためのデコードステップに基づくスケジューリングサンプリング

Scheduled Sampling Based on Decoding Steps for Neural Machine Translation ( http://arxiv.org/abs/2108.12963v2 )

ライセンス: Link先を確認
Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) スケジューリングサンプリングは、ニューラルネットワーク翻訳における露出バイアス問題を緩和するために広く使用されている。 そのコアモチベーションは、トレーニング中の推論シーンを予測トークンに置き換え、トレーニングと推論のギャップを埋めることによってシミュレートすることである。 しかしながら、バニラスケジュールサンプリングは単にトレーニングステップに基づいており、全ての復号ステップを等しく扱う。 すなわち、大きな復号ステップがエラーの蓄積によってエラー率が高い場合、実際の推論シーンに従わない、一様エラー率の推論シーンをシミュレートする。 上記の相違を緩和するため,デコードステップに基づいたスケジュールサンプリング手法を提案し,デコードステップの増大に伴う予測トークンの選択可能性を高めた。 これにより、トレーニング中の推論シーンをより現実的にシミュレートし、トレーニングと推論のギャップを埋めることが可能となる。 さらに,さらなる改善のために,トレーニングステップとデコードステップの両方に基づき,スケジュールサンプリングを検討する。 実験により,提案手法は3つの大規模wmtタスクにおいてトランスフォーマーベースラインとバニラスケジュールサンプリングを大きく上回っている。 さらに,本手法は,2つの一般的なベンチマーク上でのテキスト要約タスクにも適している。

Scheduled sampling is widely used to mitigate the exposure bias problem for neural machine translation. Its core motivation is to simulate the inference scene during training by replacing ground-truth tokens with predicted tokens, thus bridging the gap between training and inference. However, vanilla scheduled sampling is merely based on training steps and equally treats all decoding steps. Namely, it simulates an inference scene with uniform error rates, which disobeys the real inference scene, where larger decoding steps usually have higher error rates due to error accumulations. To alleviate the above discrepancy, we propose scheduled sampling methods based on decoding steps, increasing the selection chance of predicted tokens with the growth of decoding steps. Consequently, we can more realistically simulate the inference scene during training, thus better bridging the gap between training and inference. Moreover, we investigate scheduled sampling based on both training steps and decoding steps for further improvements. Experimentally, our approaches significantly outperform the Transformer baseline and vanilla scheduled sampling on three large-scale WMT tasks. Additionally, our approaches also generalize well to the text summarization task on two popular benchmarks.
翻訳日:2021-09-01 11:29:50 公開日:2021-08-31
# 差別化可能なPromptは、訓練済みの言語モデルをより良くする

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners ( http://arxiv.org/abs/2108.13161v2 )

ライセンス: Link先を確認
Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 大規模事前学習型言語モデルは、数発の学習者としての顕著な能力を示すことによって、自然言語処理に大きく貢献している。 しかし、その効果は主にモデルパラメータのスケーリングとプロンプト設計に依存し、ほとんどの現実世界アプリケーションでの実装を妨げている。 本研究では,スモール言語モデルを,プロンプトエンジニアリングを必要とせずに,より優れたマイナショット学習者に変換可能な,プラグイン可能な,拡張性,効率的なアプローチである differentiable prompt (dart) を提案する。 このアプローチの主な原理は、潜在的自然言語処理タスクを事前訓練された言語モデルのタスクに再構成し、プロンプトテンプレートとバックプロパゲーション付きターゲットラベルを微分最適化することである。 さらに,提案手法は, (i) 任意の事前学習された言語モデルへの接続, (ii) 広範な分類タスクに拡張された。 標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。

Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance.
翻訳日:2021-09-01 11:29:32 公開日:2021-08-31
# Rosenbrock関数に応用した閉ループ勾配Descentアルゴリズム

A Closed Loop Gradient Descent Algorithm applied to Rosenbrock's function ( http://arxiv.org/abs/2108.12883v2 )

ライセンス: Link先を確認
Subhransu Bhattacharjee and Ian Petersen(参考訳) 本稿では,非制約最適化のための勾配降下アルゴリズムとして応用できる慣性勾配系の適応減衰手法を提案する。 非凸ローゼンブロック関数を用いた例では、既存の運動量に基づく勾配最適化法の改善を示す。 また,lyapunovの安定性解析を用いて,アルゴリズムの連続時間バージョンの性能を示す。 数値シミュレーションを用いて,シンプレクティック・オイラー法による離散時間法の性能について考察する。

We introduce a novel adaptive damping technique for an inertial gradient system which finds application as a gradient descent algorithm for unconstrained optimisation. In an example using the non-convex Rosenbrock's function, we show an improvement on existing momentum-based gradient optimisation methods. Also using Lyapunov stability analysis, we demonstrate the performance of the continuous-time version of the algorithm. Using numerical simulations, we consider the performance of its discrete-time counterpart obtained by using the symplectic Euler method of discretisation.
翻訳日:2021-09-01 11:29:15 公開日:2021-08-31