このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210529となっている論文です。

PDF登録状況(公開日: 20210529)

TitleAuthorsAbstract論文公表日・翻訳日
# sir to seaird氏:covid-19のダイナミクスを予測するためのgrey-boxシステム理論に基づく新しいデータ駆動モデリングアプローチ

From SIR to SEAIRD: a novel data-driven modeling approach based on the Grey-box System Theory to predict the dynamics of COVID-19 ( http://arxiv.org/abs/2106.11918v1 )

ライセンス: Link先を確認
Komi Midzodzi P\'ekp\'e, Djamel Zitouni, Gilles Gasso, Wajdi Dhifli, Benjamin C. Guinhouya(参考訳) 新型コロナウイルス(covid-19)の共通区画モデリングは、事前知識と多くの仮定に基づいている。 また、無症状症例を体系的に含まない。 本研究の目的は,部分的,不完全,不確実なデータに基づく問題解決において,グレーボックスシステム理論やグレーボックス識別の強みを活用することによって,データ駆動型アプローチの枠組みを提供することである。 オープンソースリポジトリから抽出した確認事例と死亡事例の実証データを用いて,SEAIRDコンパートメントモデルを開発した。 新型コロナウイルス(covid-19)の行動に現在の知識を合わせるために調整が行われた。 このモデルは通常の微分方程式解法と最適化ツールを用いて実装・解いた。 クロスバリデーション手法を適用し, モデルの適合性を評価するため, 決定係数を$R^2$とした。 %であった。 主要な疫学的パラメータを最終的に推定し,SEAIRDモデル構築の理論的根拠を提供した。 ブラジルのケースに適用すると、SEAIRDはデータに対する優れた合意を生み出し、決定係数は$R^2$$\geq 90\%$である。 新型コロナウイルス感染の確率は概して高い(95% %$)。 20日間のモデルデータに基づいて、ブラジルとフランスで感染した10万人当たりの感染者数は3人以下だった。 同じ期間内で、covid-19の死亡率はフランスで16.4対%、ブラジルで6.9対%、ロシアで最低だった(1対1対%)。 SEAIRDは、病気の動的安定相、特に病態生理学の知識が極めて限られている新しいウイルスをモデル化するための資産である。

Common compartmental modeling for COVID-19 is based on a priori knowledge and numerous assumptions. Additionally, they do not systematically incorporate asymptomatic cases. Our study aimed at providing a framework for data-driven approaches, by leveraging the strengths of the grey-box system theory or grey-box identification, known for its robustness in problem solving under partial, incomplete, or uncertain data. Empirical data on confirmed cases and deaths, extracted from an open source repository were used to develop the SEAIRD compartment model. Adjustments were made to fit current knowledge on the COVID-19 behavior. The model was implemented and solved using an Ordinary Differential Equation solver and an optimization tool. A cross-validation technique was applied, and the coefficient of determination $R^2$ was computed in order to evaluate the goodness-of-fit of the model. %to the data. Key epidemiological parameters were finally estimated and we provided the rationale for the construction of SEAIRD model. When applied to Brazil's cases, SEAIRD produced an excellent agreement to the data, with an %coefficient of determination $R^2$ $\geq 90\%$. The probability of COVID-19 transmission was generally high ($\geq 95\%$). On the basis of a 20-day modeling data, the incidence rate of COVID-19 was as low as 3 infected cases per 100,000 exposed persons in Brazil and France. Within the same time frame, the fatality rate of COVID-19 was the highest in France (16.4\%) followed by Brazil (6.9\%), and the lowest in Russia ($\leq 1\%$). SEAIRD represents an asset for modeling infectious diseases in their dynamical stable phase, especially for new viruses when pathophysiology knowledge is very limited.
翻訳日:2021-06-27 09:01:37 公開日:2021-05-29
# (参考訳) Log2NS: 生存バイアス防止のための形式付きログによるディープラーニング分析の強化 [全文訳有]

Log2NS: Enhancing Deep Learning Based Analysis of Logs With Formal to Prevent Survivorship Bias ( http://arxiv.org/abs/2105.14149v1 )

ライセンス: CC BY 4.0
Charanraj Thimmisetty, Praveen Tiwari, Didac Gil de la Iglesia, Nandini Ramanan, Marjorie Sayer, Viswesh Ananthakrishnan, and Claudionor Nunes Coelho Jr(参考訳) リアクティブシステムによって生成された大規模な観測データセットの分析は、システム障害のデバッグと根本原因の決定において一般的な課題である。 主な問題は、これらの観測データが生存バイアスに悩まされていることである。 例えば、ネットワークからのトラフィックログの分析、回路設計からのシミュレーションログなどがある。 このようなアプリケーションでは、観測データから不明瞭な相関を検出し、それらに関する実用的な洞察を得ることが望まれる。 本稿では,機械学習(ML)による観測データに対する確率的解析と,基礎となる形式モデルに基づく記号的推論から導出される特定性を組み合わせたフレームワークであるlog to Neuro-symbolic (Log2NS)を紹介する。 提案手法を次のステップを用いてネットワークトラフィックデバッグに適用する。 ネットワークログのパターンを検出するために,IPアドレスやポート,アプリケーションなどのエンティティのグローバルな埋め込みベクトル表現を生成する。 次に、大きなログフローエントリをクラスタとして表現し、ユーザがさらに分析される興味深いシナリオを視覚化し、検出できるようにする。 これらのパターンを一般化するために、log2nsは、正のインスタンスに対する静的ログと相関エンジンからクエリする機能と、負のインスタンスと未知のインスタンスに対する公式な推論を提供する。 ディープラーニングとシンボリックメソッドの強みを組み合わせることで、log2nsはログベースのデータに対して、非常に強力な推論とデバッグツールを提供する。 実内部データセットに関する実証的な評価は、Log2NSの機能を示している。

Analysis of large observational data sets generated by a reactive system is a common challenge in debugging system failures and determining their root cause. One of the major problems is that these observational data suffer from survivorship bias. Examples include analyzing traffic logs from networks, and simulation logs from circuit design. In such applications, users want to detect non-spurious correlations from observational data and obtain actionable insights about them. In this paper, we introduce log to Neuro-symbolic (Log2NS), a framework that combines probabilistic analysis from machine learning (ML) techniques on observational data with certainties derived from symbolic reasoning on an underlying formal model. We apply the proposed framework to network traffic debugging by employing the following steps. To detect patterns in network logs, we first generate global embedding vector representations of entities such as IP addresses, ports, and applications. Next, we represent large log flow entries as clusters that make it easier for the user to visualize and detect interesting scenarios that will be further analyzed. To generalize these patterns, Log2NS provides an ability to query from static logs and correlation engines for positive instances, as well as formal reasoning for negative and unseen instances. By combining the strengths of deep learning and symbolic methods, Log2NS provides a very powerful reasoning and debugging tool for log-based data. Empirical evaluations on a real internal data set demonstrate the capabilities of Log2NS.
翻訳日:2021-06-05 23:23:15 公開日:2021-05-29
# (参考訳) SMASH: Sparse Matrix Atomic Scratchpad Hashing

SMASH: Sparse Matrix Atomic Scratchpad Hashing ( http://arxiv.org/abs/2105.14156v1 )

ライセンス: CC BY 4.0
Kaustubh Shivdikar(参考訳) スパース行列、特にspgemmカーネルは、グラフベースのパス探索から機械学習アルゴリズム(ニューラルネットワークなど)まで、幅広いアプリケーションで一般的に見られる。 SpGEMMカーネルの実装における特に課題は、DRAMメモリ上のプレッシャーである。 この問題に対処するための1つのアプローチは、SpGEMMカーネル実装に内部積法を使用することである。 内部製品は中間的な結果が少ないが、入力マトリックス要素の冗長なフェッチ数が多いため、メモリ帯域幅を飽和させることができる。 外部製品ベースのSpGEMMカーネルを使用すると、冗長なフェッチを削減できるが、部分製品の生成と管理のために余分な計算とメモリアクセスのためにオーバーヘッドが増大する。 本稿では,行単位の製品アプローチに基づく新しいSpGEMMカーネルの実装を提案する。 我々は原子インストラクションを利用して中間部分積を生成時にマージする。 原子命令を用いることで、部分積行列を作成する必要がなくなる。 行指向の製品アプローチを評価するため,最適化されたSpGEMMカーネルを,グラフベースのアプリケーションを高速化するカスタムアクセラレータにマップする。 この加速器は、インテルが開発したPiumAと呼ばれる実験システムである。 PiumAは、高速コンテキストスイッチ、ユーザ設定可能なキャッシュ、グローバルアドレス可能なメモリ、非コヒーレントキャッシュ、非同期パイプラインなど、いくつかの魅力的な機能を提供する。 我々は、PiumAファブリックの多くの特徴を活用するためにSpGEMMカーネルをカスタマイズする。 この論文は、私たちのSpGEMM実装と、PiumAフレームワークにマッピングされた以前のソリューションを比較します。 PiumAアーキテクチャのいくつかの特徴を簡潔に説明し、最適化されたSpGEMMカーネルの詳細を掘り下げる。 我々のSpGEMMカーネルは競合するアプローチと比較して9.4倍のスピードアップを達成できる。

Sparse matrices, more specifically SpGEMM kernels, are commonly found in a wide range of applications, spanning graph-based path-finding to machine learning algorithms (e.g., neural networks). A particular challenge in implementing SpGEMM kernels has been the pressure placed on DRAM memory. One approach to tackle this problem is to use an inner product method for the SpGEMM kernel implementation. While the inner product produces fewer intermediate results, it can end up saturating the memory bandwidth, given the high number of redundant fetches of the input matrix elements. Using an outer product-based SpGEMM kernel can reduce redundant fetches, but at the cost of increased overhead due to extra computation and memory accesses for producing/managing partial products. In this thesis, we introduce a novel SpGEMM kernel implementation based on the row-wise product approach. We leverage atomic instructions to merge intermediate partial products as they are generated. The use of atomic instructions eliminates the need to create partial product matrices. To evaluate our row-wise product approach, we map an optimized SpGEMM kernel to a custom accelerator designed to accelerate graph-based applications. The targeted accelerator is an experimental system named PIUMA, being developed by Intel. PIUMA provides several attractive features, including fast context switching, user-configurable caches, globally addressable memory, non-coherent caches, and asynchronous pipelines. We tailor our SpGEMM kernel to exploit many of the features of the PIUMA fabric. This thesis compares our SpGEMM implementation against prior solutions, all mapped to the PIUMA framework. We briefly describe some of the PIUMA architecture features and then delve into the details of our optimized SpGEMM kernel. Our SpGEMM kernel can achieve 9.4x speedup as compared to competing approaches.
翻訳日:2021-06-05 23:08:35 公開日:2021-05-29
# (参考訳) 自己教師付き特徴学習と共起解析による教師なし行動セグメンテーション [全文訳有]

Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing ( http://arxiv.org/abs/2105.14158v1 )

ライセンス: CC BY 4.0
Zhe Wang, Hao Chen, Xinyu Li, Chunhui Liu, Yuanjun Xiong, Joseph Tighe, Charless Fowlkes(参考訳) 時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。 しかし、大規模なビデオコーパス内のすべてのフレームに注釈を付けることで、包括的な教師付きトレーニングデータセットを構築するのは非常にコストがかかる。 そこで本研究では,ラベルのないビデオのコーパス上で動作し,ビデオ全体の時間的セグメント集合を予測できる自己教師あり手法について検討する。 これを実現するために,自己教師付きビデオ分類アプローチを活用して,教師なし特徴抽出を行う。 これらの特徴に加えて,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間軌道を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。 従来のデータセット(Breakfast, 50Salads)と、より複雑なアクティビティ構造と類似のサブアクションを持つよりきめ細かなアクションデータセット(FineGym)の両方を評価した。 その結果,提案手法は最大22倍の精度で3つのデータセットの最先端性能を達成し,その有効性と一般化性を示すとともに,弱教師付きアプローチよりも優れていることがわかった。

Temporal action segmentation is a task to classify each frame in the video with an action label. However, it is quite expensive to annotate every frame in a large corpus of videos to construct a comprehensive supervised training dataset. Thus in this work we explore a self-supervised method that operates on a corpus of unlabeled videos and predicts a likely set of temporal segments across the videos. To do this we leverage self-supervised video classification approaches to perform unsupervised feature extraction. On top of these features we develop CAP, a novel co-occurrence action parsing algorithm that can not only capture the correlation among sub-actions underlying the structure of activities, but also estimate the temporal trajectory of the sub-actions in an accurate and general way. We evaluate on both classic datasets (Breakfast, 50Salads) and emerging fine-grained action datasets (FineGym) with more complex activity structures and similar sub-actions. Results show that our method achieves state-of-the-art performance on all three datasets with up to 22\% improvement, and can even outperform some weakly-supervised approaches, demonstrating its effectiveness and generalizability.
翻訳日:2021-06-05 22:52:24 公開日:2021-05-29
# (参考訳) 近リアルタイムモニタリングによる環境保全の強化--集約的畜産農場の構造拡張の確率的検出 [全文訳有]

Enhancing Environmental Enforcement with Near Real-Time Monitoring: Likelihood-Based Detection of Structural Expansion of Intensive Livestock Farms ( http://arxiv.org/abs/2105.14159v1 )

ライセンス: CC BY 4.0
Ben Chugg, Brandon Anderson, Seiji Eicher, Sandy Lee, Daniel E. Ho(参考訳) 環境執行は歴史的に、物理的、資源集約的で、頻繁な検査に依存してきた。 リモートセンシングとコンピュータビジョンの進歩は、許可違反の早期警告信号を提供することで、コンプライアンス監視を強化する可能性がある。 本稿では,衛星画像を用いた重要な構造展開の迅速同定と,実験事例として集中型動物給餌操作(CAFO)に着目した。 未許可の拡大はCAFOにとって特に困難であり、これは健康や環境に重大なリスクをもたらしている。 1,513cafosの175,736画像からなる新しい手ラベルデータセットを用いて,最先端のビルセグメンテーションと可能性に基づく変更点検出モデルを組み合わせて,拡張のロバストな信号(auc = 0.80)を提供する。 このアプローチの大きな利点は、高いカスデンス(毎週)でも、解像度(3m/ピクセル)の衛星画像でも使えることだ。 また、非常に一般化されており、例えば、無許可建設が環境リスクをもたらす他の設定に対して、実行リソースを優先する、ほぼリアルタイムの監視ツールを提供する。 ゾーニング、生息地変更、湿地保護など。

Environmental enforcement has historically relied on physical, resource-intensive, and infrequent inspections. Advances in remote sensing and computer vision have the potential to augment compliance monitoring, by providing early warning signals of permit violations. We demonstrate a process for rapid identification of significant structural expansion using satellite imagery and focusing on Concentrated Animal Feeding Operations (CAFOs) as a test case. Unpermitted expansion has been a particular challenge with CAFOs, which pose significant health and environmental risks. Using a new hand-labeled dataset of 175,736 images of 1,513 CAFOs, we combine state-of-the-art building segmentation with a likelihood-based change-point detection model to provide a robust signal of building expansion (AUC = 0.80). A major advantage of this approach is that it is able to work with high-cadence (daily to weekly), but lower resolution (3m/pixel), satellite imagery. It is also highly generalizable and thus provides a near real-time monitoring tool to prioritize enforcement resources to other settings where unpermitted construction poses environmental risk, e.g. zoning, habitat modification, or wetland protection.
翻訳日:2021-06-05 22:37:26 公開日:2021-05-29
# (参考訳) NeuralLog: ニューラルネットワークと論理推論を組み合わせた自然言語推論 [全文訳有]

NeuralLog: Natural Language Inference with Joint Neural and Logical Reasoning ( http://arxiv.org/abs/2105.14167v1 )

ライセンス: CC BY 4.0
Zeming Chen, Qiyue Gao, Lawrence S. Moss(参考訳) ディープラーニング(DL)ベースの言語モデルは、自然言語推論(NLI)の様々なベンチマークで高いパフォーマンスを達成する。 そしてこの頃、NLIに対する象徴的なアプローチは、あまり注目されていない。 両者のアプローチ(シンボリックとDL)には長所と短所がある。 しかし、現在、NLIの課題を解決するシステムにそれらを組み合わせている方法は存在しない。 シンボリックとディープラーニングを融合するために,単調性に基づく論理推論エンジンと,句アライメントのためのニューラルネットワーク言語モデルを組み合わせた,neurallogと呼ばれる推論フレームワークを提案する。 我々のフレームワークはNLIタスクを古典的な探索問題としてモデル化し、ビーム探索アルゴリズムを用いて最適な推論経路を探索する。 実験により,我々のジョイントロジックとニューラル推論システムがNLIタスクの精度を改善し,SICKおよびMEDデータセットの最先端の精度を実現することが示された。

Deep learning (DL) based language models achieve high performance on various benchmarks for Natural Language Inference (NLI). And at this time, symbolic approaches to NLI are receiving less attention. Both approaches (symbolic and DL) have their advantages and weaknesses. However, currently, no method combines them in a system to solve the task of NLI. To merge symbolic and deep learning methods, we propose an inference framework called NeuralLog, which utilizes both a monotonicity-based logical inference engine and a neural network language model for phrase alignment. Our framework models the NLI task as a classic search problem and uses the beam search algorithm to search for optimal inference paths. Experiments show that our joint logic and neural inference system improves accuracy on the NLI task and can achieve state-of-art accuracy on the SICK and MED datasets.
翻訳日:2021-06-05 22:23:16 公開日:2021-05-29
# (参考訳) 言語モデリングのための予測表現学習 [全文訳有]

Predictive Representation Learning for Language Modeling ( http://arxiv.org/abs/2105.14214v1 )

ライセンス: CC BY 4.0
Qingfeng Lan, Luke Kumar, Martha White, Alona Fyshe(参考訳) 単語予測のタスクを効果的に実行するには、長い短期記憶ネットワーク(LSTM)が様々な種類の情報を追跡する必要がある。 いくつかの情報は次の単語の同一性に直接関係しているが、より二次的なものもある(例)。 下流語の談話レベルの特徴または特徴) 二次情報の相関は lstm 表現に現れるが、それらは \emph{explicitly} 教師付き予測タスクの一部ではない。 対照的に、強化学習(RL)では、二次情報を予測するために表現を明示的に監督する手法が有用であることが示されている。 この成功に触発された予測表現学習(PRL)を提案し,LSTMを暗黙的に学習する必要があるような特定の予測をエンコードするように明示的に制約する。 PRL1) は2つの強力な言語モデリング手法を大幅に改善し,2) はより高速に収束し,3) データが制限された場合に性能が向上することを示す。 私たちの研究は、単純な予測タスクを明示的にエンコーディングすることで、より効果的な言語モデルの探索が容易になることを示している。

To effectively perform the task of next-word prediction, long short-term memory networks (LSTMs) must keep track of many types of information. Some information is directly related to the next word's identity, but some is more secondary (e.g. discourse-level features or features of downstream words). Correlates of secondary information appear in LSTM representations even though they are not part of an \emph{explicitly} supervised prediction task. In contrast, in reinforcement learning (RL), techniques that explicitly supervise representations to predict secondary information have been shown to be beneficial. Inspired by that success, we propose Predictive Representation Learning (PRL), which explicitly constrains LSTMs to encode specific predictions, like those that might need to be learned implicitly. We show that PRL 1) significantly improves two strong language modeling methods, 2) converges more quickly, and 3) performs better when data is limited. Our work shows that explicitly encoding a simple predictive task facilitates the search for a more effective language model.
翻訳日:2021-06-05 22:11:05 公開日:2021-05-29
# (参考訳) less is more: 視覚トランスフォーマーに注意を払わない [全文訳有]

Less is More: Pay Less Attention in Vision Transformers ( http://arxiv.org/abs/2105.14217v1 )

ライセンス: CC BY 4.0
Zizheng Pan, Bohan Zhuang, Haoyu He, Jing Liu, Jianfei Cai(参考訳) トランスフォーマーは、特にコンピュータビジョンにおける畳み込みニューラルネットワーク(cnns)の強力な代替として、ディープラーニングにおいて支配的なアーキテクチャの1つとなっている。 しかしながら、以前の作品における変圧器の訓練や推論は、長い表現列、特に高分解能の密集した予測タスクに対する自己着立の二次的な複雑さのために、非常に高価である。 そこで本研究では, 畳み込み, 完全連結(fc)層, セルフアテンションが画像パッチシーケンスの処理にほぼ等価な数学的表現を持つという事実に基づいて, 新たなless attention vision transformer (lit)を提案する。 具体的には,多層パーセプトロン(MLP)を用いて,より深い層に長い依存関係をキャプチャするために自己注意モジュールを適用しながら,初期段階の豊富な局所パターンをエンコードする階層トランスフォーマを提案する。 さらに、非均一な方法で情報パッチを適応的に融合させる学習可能なトークンマージモジュールを提案する。 提案したLITは,画像分類,オブジェクト検出,インスタンスセグメンテーションなどの画像認識タスクにおいて,多くの視覚タスクの強力なバックボーンとして機能する。

Transformers have become one of the dominant architectures in deep learning, particularly as a powerful alternative to convolutional neural networks (CNNs) in computer vision. However, Transformer training and inference in previous works can be prohibitively expensive due to the quadratic complexity of self-attention over a long sequence of representations, especially for high-resolution dense prediction tasks. To this end, we present a novel Less attention vIsion Transformer (LIT), building upon the fact that convolutions, fully-connected (FC) layers, and self-attentions have almost equivalent mathematical expressions for processing image patch sequences. Specifically, we propose a hierarchical Transformer where we use pure multi-layer perceptrons (MLPs) to encode rich local patterns in the early stages while applying self-attention modules to capture longer dependencies in deeper layers. Moreover, we further propose a learned deformable token merging module to adaptively fuse informative patches in a non-uniform manner. The proposed LIT achieves promising performance on image recognition tasks, including image classification, object detection and instance segmentation, serving as a strong backbone for many vision tasks.
翻訳日:2021-06-05 21:57:17 公開日:2021-05-29
# (参考訳) 自律走行車の動作計画と制御のための深層強化学習アルゴリズムに関する研究 [全文訳有]

A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles ( http://arxiv.org/abs/2105.14218v1 )

ライセンス: CC BY 4.0
Fei Ye, Shen Zhang, Pin Wang, and Ching-Yao Chan(参考訳) 本研究では,強化学習(rl)を自律走行車の運動計画と制御に適用する研究の最近の文献を体系的に要約する。 多くの既存のコントリビューションは、手作りのモジュールで構成され、それぞれが人間の解釈の容易さのために選択された機能を持つパイプラインアプローチに起因している。 しかし、このアプローチはシステムレベルの最適化が欠如しているため、最大性能を自動保証しない。 そこで、本稿では、エンド・ツー・エンドのアプローチに陥り、パフォーマンスが向上し、システム・スケールが小さくなる傾向を示す。 しかし、その性能は専門家のデータ不足や一般化の問題にも悩まされている。 最後に、自動運転に深いRLアルゴリズムを適用した残りの課題を要約し、これらの課題に取り組むための今後の研究方向も提示する。

In this survey, we systematically summarize the current literature on studies that apply reinforcement learning (RL) to the motion planning and control of autonomous vehicles. Many existing contributions can be attributed to the pipeline approach, which consists of many hand-crafted modules, each with a functionality selected for the ease of human interpretation. However, this approach does not automatically guarantee maximal performance due to the lack of a system-level optimization. Therefore, this paper also presents a growing trend of work that falls into the end-to-end approach, which typically offers better performance and smaller system scales. However, their performance also suffers from the lack of expert data and generalization issues. Finally, the remaining challenges applying deep RL algorithms on autonomous driving are summarized, and future research directions are also presented to tackle these challenges.
翻訳日:2021-06-05 21:25:47 公開日:2021-05-29
# (参考訳) 次世代IEEE 802.11 WLANにおけるチャネルボンディング性能予測のための機械学習 [全文訳有]

Machine Learning for Performance Prediction of Channel Bonding in Next-Generation IEEE 802.11 WLANs ( http://arxiv.org/abs/2105.14219v1 )

ライセンス: CC BY 4.0
Francesc Wilhelmi, David G\'oez, Paola Soto, Ramon Vall\'es, Mohammad Alfaifi, Abdulrahman Algunayah, Jorge Martin-P\'erez, Luigi Girletti, Rajasekar Mohan, K Venkat Ramnan, Boris Bellalta(参考訳) 人工知能(AI)を活用したコミュニケーション、産業、アカデミア、標準化組織が出現し、将来の5Gの複雑さの増大に対処するためのメカニズムと手順の定義が進められている。 この文脈において、ITU(International Telecommunication Union)は、5G Challengeの最初のAIを組織し、業界と学界をまとめて、機械学習(ML)のネットワークへの応用に関連する代表的問題を導入、解決した。 本稿では,次世代無線ローカルエリアネットワーク(wlans)のチャネルボンディング(cb)技術による性能予測を主目的とする,universitat pompeu fabra (upf) による問題文~13 (ps-013) から得られた結果について述べる。 特に、参加者(ニューラルネットワーク、グラフニューラルネットワーク、ランダムフォレスト回帰、勾配向上など)が提案するMLモデルを概説し、IEEE 802.11ax指向のKomondorネットワークシミュレータを用いて生成されたオープンデータセット上での性能を分析する。 提案手法により得られた精度は,WLANの性能予測におけるMLの有効性を示す。 さらに,より優れた結果を得るためにWLANインタラクションを抽象化することの重要性についても論じるとともに,MLによるスループット予測の改善の余地があることを論じる。

With the advent of Artificial Intelligence (AI)-empowered communications, industry, academia, and standardization organizations are progressing on the definition of mechanisms and procedures to address the increasing complexity of future 5G and beyond communications. In this context, the International Telecommunication Union (ITU) organized the first AI for 5G Challenge to bring industry and academia together to introduce and solve representative problems related to the application of Machine Learning (ML) to networks. In this paper, we present the results gathered from Problem Statement~13 (PS-013), organized by Universitat Pompeu Fabra (UPF), which primary goal was predicting the performance of next-generation Wireless Local Area Networks (WLANs) applying Channel Bonding (CB) techniques. In particular, we overview the ML models proposed by participants (including Artificial Neural Networks, Graph Neural Networks, Random Forest regression, and gradient boosting) and analyze their performance on an open dataset generated using the IEEE 802.11ax-oriented Komondor network simulator. The accuracy achieved by the proposed methods demonstrates the suitability of ML for predicting the performance of WLANs. Moreover, we discuss the importance of abstracting WLAN interactions to achieve better results, and we argue that there is certainly room for improvement in throughput prediction through ML.
翻訳日:2021-06-05 21:07:30 公開日:2021-05-29
# (参考訳) ツリー一貫性を保証した信念依存報酬mts計画の簡略化 [全文訳有]

Simplified Belief-Dependent Reward MCTS Planning with Guaranteed Tree Consistency ( http://arxiv.org/abs/2105.14239v1 )

ライセンス: CC BY 4.0
Ori Sztyglic, Andrey Zhitnikov, Vadim Indelman(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は解決が難しいことで知られている。 最先端のオンラインソルバのほとんどは、モンテカルロ木探索(mcts)のアイデアを活用している。 これらの解法は急速に信仰木の最も有望な枝に収束し、最適部分を避ける。 これらのアルゴリズムのほとんどは、国家報酬への直接的なアクセスを利用し、信念に依存した報酬は国家報酬に対する期待にすぎないと仮定するように設計されている。 したがって、信念に依存した報酬のより一般的で本質的な設定には適用できない。 そのような報酬の1つの例は、信念の重み付き粒子の集合を用いて近似された微分エントロピーである。 このような情報理論的な報酬は、重要な計算負荷をもたらす。 本稿では,MCTSアルゴリズムに単純化のパラダイムを組み込む。 特に,情報理論的な報酬を考慮しつつ,それらを完全に計算する必要性を回避し,mtsアルゴリズムの新しい変種であるsith-pft(simplify information-theoreti c particle filter tree)を提案する。 情報理論的報酬のコスト計算を適応的上界と下界に置き換える。 これらの境界は計算が容易で,アルゴリズムの要求によってのみ制限される。 重要なことは、MCTSが得るものと全く同じ信念木と解を保証し、元の情報理論の報酬を明示的に計算する。 我々のアプローチは一般に、報酬境界への収束は容易にプラグインでき、性能を損なうことなくかなりのスピードアップを達成できる。

Partially Observable Markov Decision Processes (POMDPs) are notoriously hard to solve. Most advanced state-of-the-art online solvers leverage ideas of Monte Carlo Tree Search (MCTS). These solvers rapidly converge to the most promising branches of the belief tree, avoiding the suboptimal sections. Most of these algorithms are designed to utilize straightforward access to the state reward and assume the belief-dependent reward is nothing but expectation over the state reward. Thus, they are inapplicable to a more general and essential setting of belief-dependent rewards. One example of such reward is differential entropy approximated using a set of weighted particles of the belief. Such an information-theoreti c reward introduces a significant computational burden. In this paper, we embed the paradigm of simplification into the MCTS algorithm. In particular, we present Simplified Information-Theoreti c Particle Filter Tree (SITH-PFT), a novel variant to the MCTS algorithm that considers information-theoreti c rewards but avoids the need to calculate them completely. We replace the costly calculation of information-theoreti c rewards with adaptive upper and lower bounds. These bounds are easy to calculate and tightened only by the demand of our algorithm. Crucially, we guarantee precisely the same belief tree and solution that would be obtained by MCTS, which explicitly calculates the original information-theoreti c rewards. Our approach is general; namely, any converging to the reward bounds can be easily plugged-in to achieve substantial speedup without any loss in performance.
翻訳日:2021-06-05 20:50:56 公開日:2021-05-29
# (参考訳) 問合せから引用への変換に基づく引用推薦と解釈 [全文訳有]

Quotation Recommendation and Interpretation Based on Transformation from Queries to Quotations ( http://arxiv.org/abs/2105.14189v1 )

ライセンス: CC BY 4.0
Lingzhi Wang, Xingshan Zeng, Kam-Fai Wong(参考訳) 個人が自分を表現するのを助けるために、引用推奨が注目を集めている。 それでも、これまでのほとんどの取り組みは、引用とクエリを別々にモデル化することに集中し、引用とクエリの関係を無視する。 本研究では,クエリ表現を直接引用表現にマッピングする変換行列を提案する。 マッピング関係をよりよく学ぶために、2つの意味空間の距離を最小にするマッピング損失(1つは引用用、もう1つはマッピングクエリ用)を用いる。 さらに,問合せ中の単語を用いて引用の擬人的言語を解釈し,問合せの上に引用を意識した注意を施し,指示語を強調する。 英語と中国語の2つのデータセットの実験では、我々のモデルは過去の最先端モデルよりも優れていた。

To help individuals express themselves better, quotation recommendation is receiving growing attention. Nevertheless, most prior efforts focus on modeling quotations and queries separately and ignore the relationship between the quotations and the queries. In this work, we introduce a transformation matrix that directly maps the query representations to quotation representations. To better learn the mapping relationship, we employ a mapping loss that minimizes the distance of two semantic spaces (one for quotation and another for mapped-query). Furthermore, we explore using the words in history queries to interpret the figurative language of quotations, where quotation-aware attention is applied on top of history queries to highlight the indicator words. Experiments on two datasets in English and Chinese show that our model outperforms previous state-of-the-art models.
翻訳日:2021-06-05 20:16:32 公開日:2021-05-29
# (参考訳) 対向訓練におけるクラスワイズロバストネスの分析と応用 [全文訳有]

Analysis and Applications of Class-wise Robustness in Adversarial Training ( http://arxiv.org/abs/2105.14240v1 )

ライセンス: CC BY 4.0
Qi Tian, Kun Kuang, Kelu Jiang, Fei Wu, Yisen Wang(参考訳) 敵の訓練は、敵の例に対するモデル堅牢性を改善する最も効果的な手法の1つである。 しかし、以前の研究は主にモデルの全体的なロバスト性に焦点をあてており、敵のトレーニングに関わる各クラスの役割に関する詳細な分析はまだ欠けている。 本稿では,対人訓練におけるクラスワイド・ロバストネスの分析を提案する。 まず,MNIST, CIFAR-10, CIFAR-100, SVHN, STL-10, ImageNetの6つのベンチマークデータセットに対して, 逆トレーニングの詳細な診断を行う。 驚くべきことに,クラス間のロバスト性は著しく異なっており,ロバストモデルではクラス毎のロバスト性がアンバランス/アンフェアになる。 さらに, クラス間の関係を調査し, 異なる攻撃方法や防御方法において, バランスの取れないクラス毎のロバスト性が極めて一致していることを見いだす。 さらに,攻撃的学習における強固な攻撃手法は,主に脆弱なクラス(すなわち,ロバスト性の低いクラス)に対する攻撃がより成功したことによるパフォーマンス向上を達成している。 これらの興味深い発見に触発されて,従来のPGD攻撃である温度-PGD攻撃に基づく簡易かつ効果的な攻撃法を設計し,各画像の信頼性分布に温度係数を持つクラス間の堅牢性格差を拡大することを提案する。 実験により,PGD攻撃よりも高い攻撃率が得られることが示された。 さらに、防衛の観点からは、最も脆弱なクラスのロバスト性を改善するために、トレーニングや推論フェーズにいくつかの変更を加え、クラス毎のロバスト性に大きな差を緩和する。 我々の研究は、より包括的な対人訓練の理解と、堅牢なモデルにおけるクラスワイドの性質の再考に寄与すると考えている。

Adversarial training is one of the most effective approaches to improve model robustness against adversarial examples. However, previous works mainly focus on the overall robustness of the model, and the in-depth analysis on the role of each class involved in adversarial training is still missing. In this paper, we propose to analyze the class-wise robustness in adversarial training. First, we provide a detailed diagnosis of adversarial training on six benchmark datasets, i.e., MNIST, CIFAR-10, CIFAR-100, SVHN, STL-10 and ImageNet. Surprisingly, we find that there are remarkable robustness discrepancies among classes, leading to unbalance/unfair class-wise robustness in the robust models. Furthermore, we keep investigating the relations between classes and find that the unbalanced class-wise robustness is pretty consistent among different attack and defense methods. Moreover, we observe that the stronger attack methods in adversarial learning achieve performance improvement mainly from a more successful attack on the vulnerable classes (i.e., classes with less robustness). Inspired by these interesting findings, we design a simple but effective attack method based on the traditional PGD attack, named Temperature-PGD attack, which proposes to enlarge the robustness disparity among classes with a temperature factor on the confidence distribution of each image. Experiments demonstrate our method can achieve a higher attack rate than the PGD attack. Furthermore, from the defense perspective, we also make some modifications in the training and inference phases to improve the robustness of the most vulnerable class, so as to mitigate the large difference in class-wise robustness. We believe our work can contribute to a more comprehensive understanding of adversarial training as well as rethinking the class-wise properties in robust models.
翻訳日:2021-06-05 20:09:30 公開日:2021-05-29
# (参考訳) 相反学習によるニュース要約におけるリードバイアスの実証 [全文訳有]

Demoting the Lead Bias in News Summarization via Alternating Adversarial Learning ( http://arxiv.org/abs/2105.14241v1 )

ライセンス: CC BY 4.0
Linzi Xing, Wen Xiao, Giuseppe Carenini(参考訳) ニュース記事では、リードバイアスは、通常、神経抽出要約器の学習信号を支配し、異なる、あるいはバイアスのないデータのパフォーマンスを著しく制限する一般的な現象である。 本稿では,リードバイアスを減じ,要約者がコンテンツセマンティクスにもっと焦点を合わせる新しい手法を提案する。 リードバイアスの程度が異なる2つのニュースコーポラにおける実験により,本手法はモデルの学習したリードバイアスを効果的に分解し,分散データに対する一般性を向上させることができることを示した。

In news articles the lead bias is a common phenomenon that usually dominates the learning signals for neural extractive summarizers, severely limiting their performance on data with different or even no bias. In this paper, we introduce a novel technique to demote lead bias and make the summarizer focus more on the content semantics. Experiments on two news corpora with different degrees of lead bias show that our method can effectively demote the model's learned lead bias and improve its generality on out-of-distribution data, with little to no performance loss on in-distribution data.
翻訳日:2021-06-05 19:53:06 公開日:2021-05-29
# (参考訳) 生成グラフモデリングのためのグラフィオンオートエンコーダの学習 [全文訳有]

Learning Graphon Autoencoders for Generative Graph Modeling ( http://arxiv.org/abs/2105.14244v1 )

ライセンス: CC BY 4.0
Hongteng Xu, Peilin Zhao, Junzhou Huang, Dixin Luo(参考訳) Graphonは任意のサイズでグラフを生成する非パラメトリックモデルであり、グラフから簡単に誘導できる。 このモデルに基づき、解釈可能でスケーラブルなグラフ生成モデルを構築するための新しいアルゴリズムフレームワーク \textit{graphon autoencoder} を提案する。 このフレームワークは、観測されたグラフを関数空間における誘導グラフトンとして扱い、チェブシェフグラフロンフィルタを集約するエンコーダによってそれらの潜在表現を導出する。 線形グラフトン分解モデルは、潜在表現を利用して誘導グラフ(および対応する観測グラフ)を再構成するデコーダとして機能する。 モデルとデータ分布間のワッサースタイン距離を最小化し,エンコーダとデコーダを学習するための効率的な学習アルゴリズムを開発した。 このアルゴリズムは、異なるグラフオンに条件付きグラフ分布のKL分散を基礎となる距離として取り、報酬増大最大推定をもたらす。 graphonオートエンコーダは、グラフを表現および生成するための新しいパラダイムを提供する。

Graphon is a nonparametric model that generates graphs with arbitrary sizes and can be induced from graphs easily. Based on this model, we propose a novel algorithmic framework called \textit{graphon autoencoder} to build an interpretable and scalable graph generative model. This framework treats observed graphs as induced graphons in functional space and derives their latent representations by an encoder that aggregates Chebshev graphon filters. A linear graphon factorization model works as a decoder, leveraging the latent representations to reconstruct the induced graphons (and the corresponding observed graphs). We develop an efficient learning algorithm to learn the encoder and the decoder, minimizing the Wasserstein distance between the model and data distributions. This algorithm takes the KL divergence of the graph distributions conditioned on different graphons as the underlying distance and leads to a reward-augmented maximum likelihood estimation. The graphon autoencoder provides a new paradigm to represent and generate graphs, which has good generalizability and transferability.
翻訳日:2021-06-05 19:44:13 公開日:2021-05-29
# (参考訳) 回転変換の自己教師付き学習による新しい3次元物体の配向 [全文訳有]

Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms ( http://arxiv.org/abs/2105.14246v1 )

ライセンス: CC BY 4.0
Shivin Devgon, Jeffrey Ichnowski, Ashwin Balakrishna, Harry Zhang, Ken Goldberg(参考訳) オブジェクト指向は、多くのパッキングやアセンブリタスクの自動化において重要なコンポーネントである。 対象物の現在および所望の方向の深度画像が与えられた新規物体を指向するアルゴリズムを提案する。 本研究では,この問題に対する自己教師付き目標を定式化し,現在と所望の深さ画像の間で,四元数でパラメータ化された3次元回転を推定する深層ニューラルネットワークを訓練する。 次に、2つの深度画像間の推定回転に基づいて、トレーニングされたネットワークを比例制御器で再配置する。 その結果, シミュレーションでは, 22個の新規物体に対して, 1.47{\deg} の中央角誤差で, 最大30{\deg} の未発見物体を回転させることができることがわかった。 物理オブジェクトに関する実験により、コントローラは5つのオブジェクトに対して10個のランダムな初期/期待方向に対して4.2{\deg}の中央角誤差を達成できることが示唆された。

Orienting objects is a critical component in the automation of many packing and assembly tasks. We present an algorithm to orient novel objects given a depth image of the object in its current and desired orientation. We formulate a self-supervised objective for this problem and train a deep neural network to estimate the 3D rotation as parameterized by a quaternion, between these current and desired depth images. We then use the trained network in a proportional controller to re-orient objects based on the estimated rotation between the two depth images. Results suggest that in simulation we can rotate unseen objects with unknown geometries by up to 30{\deg} with a median angle error of 1.47{\deg} over 100 random initial/desired orientations each for 22 novel objects. Experiments on physical objects suggest that the controller can achieve a median angle error of 4.2{\deg} over 10 random initial/desired orientations each for 5 objects.
翻訳日:2021-06-05 19:20:59 公開日:2021-05-29
# (参考訳) チェリーピッキング勾配:微分クロス近似による視覚データの低ランク埋め込み学習

Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data via Differentiable Cross-Approximation ( http://arxiv.org/abs/2105.14250v1 )

ライセンス: CC BY 4.0
Mikhail Usvyatsov, Anastasia Makarova, Rafael Ballester-Ripoll, Maxim Rakhuba, Andreas Krause, Konrad Schindler(参考訳) 本稿では,大規模な視覚データテンソルを処理するエンドツーエンドのトレーニング可能なフレームワークを提案する。 提案手法では,ニューラルネットワークエンコーダと \emph{tensor train decomposition} を組み合わせて低ランク遅延符号化を学習し,クロス近似(CA)と組み合わせて元のサンプルのサブセットを通して表現を学習する。 CAはテンソル分解に固有の適応サンプリングアルゴリズムであり、全高解像度データの処理を明示的に避ける。 代わりに、コアとオンデマンドから取得したローカル代表サンプルを積極的に選択します。 必要なサンプル数は、入力のサイズに応じて対数的にのみ増加する。 ネットワーク内のテンソルを暗黙的に表現することで、圧縮されていない形で引きずり込めない大きなグリッドを処理できます。 提案手法は,大規模多次元グリッドデータ(3次元トモグラフィなど)や,広い受容領域(臓器全体の医療状態の予測など)の文脈を必要とするタスクにおいて特に有用である。 コードはhttps://github.com/a elphy/c-picで入手できる。

We propose an end-to-end trainable framework that processes large-scale visual data tensors by looking \emph{at a fraction of their entries only}. Our method combines a neural network encoder with a \emph{tensor train decomposition} to learn a low-rank latent encoding, coupled with cross-approximation (CA) to learn the representation through a subset of the original samples. CA is an adaptive sampling algorithm that is native to tensor decompositions and avoids working with the full high-resolution data explicitly. Instead, it actively selects local representative samples that we fetch out-of-core and on-demand. The required number of samples grows only logarithmically with the size of the input. Our implicit representation of the tensor in the network enables processing large grids that could not be otherwise tractable in their uncompressed form. The proposed approach is particularly useful for large-scale multidimensional grid data (e.g., 3D tomography), and for tasks that require context over a large receptive field (e.g., predicting the medical condition of entire organs). The code will be available at https://github.com/a elphy/c-pic
翻訳日:2021-06-05 19:05:26 公開日:2021-05-29
# (参考訳) 連続時間スコアベース生成モデルにおける表現学習 [全文訳有]

Representation Learning in Continuous-Time Score-Based Generative Models ( http://arxiv.org/abs/2105.14257v1 )

ライセンス: CC BY 4.0
Korbinian Abstreiter, Stefan Bauer, Arash Mehrjou(参考訳) 連続時間領域上の確率微分方程式として表されるスコアベースの手法は、最近非逆生成モデルとして成功した。 このようなモデルのトレーニングは、マルチスケールのデノージングオートエンコーダとして見ることができる、デノージングスコアマッチングに依存している。 ここでは,教師あり信号のない表現学習を実現するために,デノイングスコアマッチングフレームワークを強化する。 GANとVAEは、遅延コードを直接データサンプルに変換することで表現を学ぶ。 対照的に、スコアベースの表現学習は、音符マッチング目標の新しい定式化に依存しているため、音符マッチングに必要な情報をエンコードする。 この違いが表現にエンコードされたディテールのレベルを手作業で制御できることを示す。

Score-based methods represented as stochastic differential equations on a continuous time domain have recently proven successful as a non-adversarial generative model. Training such models relies on denoising score matching, which can be seen as multi-scale denoising autoencoders. Here, we augment the denoising score-matching framework to enable representation learning without any supervised signal. GANs and VAEs learn representations by directly transforming latent codes to data samples. In contrast, score-based representation learning relies on a new formulation of the denoising score-matching objective and thus encodes information needed for denoising. We show how this difference allows for manual control of the level of detail encoded in the representation.
翻訳日:2021-06-05 18:57:41 公開日:2021-05-29
# (参考訳) Sparse Linear Banditsのための情報指向サンプリング [全文訳有]

Information Directed Sampling for Sparse Linear Bandits ( http://arxiv.org/abs/2105.14267v1 )

ライセンス: CC BY 4.0
Botao Hao, Tor Lattimore, Wei Deng(参考訳) 確率的スパース線形帯域は、高次元オンライン意思決定問題の実用的なモデルを提供し、豊富な情報レグレット構造を持つ。 本研究では,情報リグレッシブなトレードオフを自然にバランスさせる情報指向サンプリング(ids)の利用について検討する。 我々は、様々な問題事例における既存の下位境界にほぼ一致する情報理論ベイズ的後悔境界のクラスを開発し、IDSの適応性を示す。 スパースidを効率的に実装するために,spike-and-slab gaussian-laplace priorを用いた経験的ベイズ法を提案する。 数基のベースラインに対して, スパースIDSによる著しい後悔の低減が認められた。

Stochastic sparse linear bandits offer a practical model for high-dimensional online decision-making problems and have a rich information-regret structure. In this work we explore the use of information-directed sampling (IDS), which naturally balances the information-regret trade-off. We develop a class of information-theoreti c Bayesian regret bounds that nearly match existing lower bounds on a variety of problem instances, demonstrating the adaptivity of IDS. To efficiently implement sparse IDS, we propose an empirical Bayesian approach for sparse posterior sampling using a spike-and-slab Gaussian-Laplace prior. Numerical results demonstrate significant regret reductions by sparse IDS relative to several baselines.
翻訳日:2021-06-05 18:48:58 公開日:2021-05-29
# (参考訳) 複数のトークン化戦略を持つ韓国英語機械翻訳 [全文訳有]

Korean-English Machine Translation with Multiple Tokenization Strategy ( http://arxiv.org/abs/2105.14274v1 )

ライセンス: CC BY 4.0
Dojun Park, Youngjin Jang and Harksoo Kim(参考訳) 本研究では,機械翻訳モデルの学習結果にトークン化手法がどう影響するかを明らかにする。 本研究では,韓国語を原語として,英語を対象言語として,文字トークン化,形態素トークン化,BPEトークン化をそれぞれ適用し,トランスフォーマーニューラルネットワークを用いて,各9モデルの5万エポックを繰り返して比較実験を行った。 実験モデルのbleuスコアを計測した結果、bpeトークン化を韓国語に適用したモデルは35.73点を記録し、最高のパフォーマンスを示した。

This study was conducted to find out how tokenization methods affect the training results of machine translation models. In this work, character tokenization, morpheme tokenization, and BPE tokenization were applied to Korean as the source language and English as the target language respectively, and the comparison experiment was conducted by repeating 50,000 epochs of each 9 models using the Transformer neural network. As a result of measuring the BLEU scores of the experimental models, the model that applied BPE tokenization to Korean and morpheme tokenization to English recorded 35.73, showing the best performance.
翻訳日:2021-06-05 18:04:24 公開日:2021-05-29
# (参考訳) 深部アンサンブルを用いたGreedy Bayesian Posterior Approximation [全文訳有]

Greedy Bayesian Posterior Approximation with Deep Ensembles ( http://arxiv.org/abs/2105.14275v1 )

ライセンス: CC BY 4.0
Aleksei Tiulpin and Matthew B. Blaschko(参考訳) 独立に訓練されたニューラルネットワークのアンサンブルは、ディープラーニングにおける予測の不確かさを推定するための最先端のアプローチであり、デルタ関数の混合による後方分布の近似と解釈できる。 アンサンブルの訓練は、損失ランドスケープの非凸性と個々のメンバーのランダムな初期化に依存し、その結果の後方近似は制御されない。 本稿では,関数空間における実後部とカーネル密度推定器間の$f$-divergenceを最小化する,この制限に対処する新しい原理的手法を提案する。 我々は、この目的を組合せの観点から分析し、任意の$f$ に対して混合成分に関して亜モジュラーであることを示す。 その後, グリーディアンサンブル構築の問題を考えるとともに, 全目的の限界ゲインから, アンサンブル法の新たな多様性用語を導出する。 このアプローチのパフォーマンスは、複数のデータセットでトレーニングされたさまざまなアーキテクチャにおける、コンピュータビジョンの分散ベンチマークで実証されます。 本手法のソースコードはhttps://github.com/M IPT-Oulu/greedy_ense mbles_trainingで公開されている。

Ensembles of independently trained neural networks are a state-of-the-art approach to estimate predictive uncertainty in Deep Learning, and can be interpreted as an approximation of the posterior distribution via a mixture of delta functions. The training of ensembles relies on non-convexity of the loss landscape and random initialization of their individual members, making the resulting posterior approximation uncontrolled. This paper proposes a novel and principled method to tackle this limitation, minimizing an $f$-divergence between the true posterior and a kernel density estimator in a function space. We analyze this objective from a combinatorial point of view, and show that it is submodular with respect to mixture components for any $f$. Subsequently, we consider the problem of greedy ensemble construction, and from the marginal gain of the total objective, we derive a novel diversity term for ensemble methods. The performance of our approach is demonstrated on computer vision out-of-distribution benchmarks in a range of architectures trained on multiple datasets. The source code of our method is publicly available at https://github.com/M IPT-Oulu/greedy_ense mbles_training.
翻訳日:2021-06-05 17:36:52 公開日:2021-05-29
# (参考訳) 文法精度評価(gae) : 機械翻訳モデルの量的固有性評価 [全文訳有]

Grammar Accuracy Evaluation (GAE): Quantifiable Intrinsic Evaluation of Machine Translation Models ( http://arxiv.org/abs/2105.14277v1 )

ライセンス: CC BY 4.0
Dojun Park, Youngjin Jang and Harksoo Kim(参考訳) 自然言語生成モデルの性能評価のための人間による本質的評価は、生成文の品質が外部的な評価だけでは完全に表現できないという事実を克服するために行われる。 それにもかかわらず、既存の内在的評価は評価者の基準に応じて大きなスコア偏差を有する。 本稿では,特定の評価基準を提供するための文法精度評価(GAE)を提案する。 bleuとgaeによる機械翻訳の品質分析の結果、bleuスコアは機械翻訳モデルの絶対的性能を表わさないこと、およびgaeがbleuの欠点を補うことを確認し、代替同義語や文構造の変化を柔軟に評価した。

Intrinsic evaluation by humans for the performance of natural language generation models is conducted to overcome the fact that the quality of generated sentences cannot be fully represented by only extrinsic evaluation. Nevertheless, existing intrinsic evaluations have a large score deviation according to the evaluator's criteria. In this paper, we propose Grammar Accuracy Evaluation (GAE) that can provide specific evaluating criteria. As a result of analyzing the quality of machine translation by BLEU and GAE, it was confirmed that the BLEU score does not represent the absolute performance of machine translation models and that GAE compensates for the shortcomings of BLEU with a flexible evaluation on alternative synonyms and changes in sentence structure.
翻訳日:2021-06-05 17:06:11 公開日:2021-05-29
# (参考訳) 教師付きコントラスト学習によるドメイン外検出のための識別表現のモデル化 [全文訳有]

Modeling Discriminative Representations for Out-of-Domain Detection with Supervised Contrastive Learning ( http://arxiv.org/abs/2105.14289v1 )

ライセンス: CC BY 4.0
Zhiyuan Zeng, Keqing He, Yuanmeng Yan, Zijun Liu, Yanan Wu, Hong Xu, Huixing Jiang and Weiran Xu(参考訳) タスク指向のダイアログシステムでは、ユーザクエリからドメイン外(ood)や未知のインテントを検出することが不可欠です。 ood検出の重要な課題は、識別的意味的特徴を学ぶことである。 伝統的なクロスエントロピー損失は、サンプルが正しく分類されているかどうかのみに焦点を当て、カテゴリ間のマージンを明確に区別しない。 本稿では,同じクラスに属するドメイン内インテントをまとめてクラス内分散を最小化し,異なるクラスからサンプルを分離することでクラス間分散を最大化する,教師付きコントラスト学習目的を提案する。 さらに,潜伏空間におけるサンプルの擬似多彩なビューを得るために,対角的拡張機構を用いる。 2つの公開データセットの実験は、OOD検出のための識別表現をキャプチャする手法の有効性を証明した。

Detecting Out-of-Domain (OOD) or unknown intents from user queries is essential in a task-oriented dialog system. A key challenge of OOD detection is to learn discriminative semantic features. Traditional cross-entropy loss only focuses on whether a sample is correctly classified, and does not explicitly distinguish the margins between categories. In this paper, we propose a supervised contrastive learning objective to minimize intra-class variance by pulling together in-domain intents belonging to the same class and maximize inter-class variance by pushing apart samples from different classes. Besides, we employ an adversarial augmentation mechanism to obtain pseudo diverse views of a sample in the latent space. Experiments on two public datasets prove the effectiveness of our method capturing discriminative representations for OOD detection.
翻訳日:2021-06-05 16:58:18 公開日:2021-05-29
# (参考訳) ニューラルネットワークの学習を高速化する高速機能進化 [全文訳有]

Rapid Feature Evolution Accelerates Learning in Neural Networks ( http://arxiv.org/abs/2105.14301v1 )

ライセンス: CC BY 4.0
Haozhe Shan and Blake Bordelon(参考訳) ニューラルネットワーク(nn)のトレーニングと無限幅極限の一般化は、時間的に定常な神経接核(ntk)を持つカーネルメソッドによってよく特徴付けられる。 しかし、有限幅NNは、NTKの時間進化として現れる特徴学習の重要性を示唆し、対応するカーネルメソッドよりも一貫して優れている。 本稿では,勾配降下時のNTKと目標関数とのカーネルアライメント現象を解析する。 まず,深層線形ネットワークにおいてタスクとカーネルのアライメントが発生する理由を機械論的に説明する。 次に、機能マップを最適化して学習を加速し、機能の進化速度を制限した場合、この動作がより一般的に発生することを示す。 経験的に、勾配降下は、ntkの最高固有関数が目標関数に迅速に一致し、時間内に損失がパワーロームよりも早く減少する特徴学習フェーズを経て、アライメントが著しく改善されず、トレーニング損失がパワーロームに低下するカーネル勾配降下(kgd)フェーズに入る。 より深いネットワークでは、機能進化がより速く、より劇的であることを示す。 また、複数の出力ノードを持つネットワークは、それぞれの出力チャネルに対して個別の専用カーネルを開発することを発見した。 このクラス固有のアライメントは線形ネットワークでは発生しないことを示す。

Neural network (NN) training and generalization in the infinite-width limit are well-characterized by kernel methods with a neural tangent kernel (NTK) that is stationary in time. However, finite-width NNs consistently outperform corresponding kernel methods, suggesting the importance of feature learning, which manifests as the time evolution of NTKs. Here, we analyze the phenomenon of kernel alignment of the NTK with the target functions during gradient descent. We first provide a mechanistic explanation for why alignment between task and kernel occurs in deep linear networks. We then show that this behavior occurs more generally if one optimizes the feature map over time to accelerate learning while constraining how quickly the features evolve. Empirically, gradient descent undergoes a feature learning phase, during which top eigenfunctions of the NTK quickly align with the target function and the loss decreases faster than power law in time; it then enters a kernel gradient descent (KGD) phase where the alignment does not improve significantly and the training loss decreases in power law. We show that feature evolution is faster and more dramatic in deeper networks. We also found that networks with multiple output nodes develop separate, specialized kernels for each output channel, a phenomenon we termed kernel specialization. We show that this class-specific alignment is does not occur in linear networks.
翻訳日:2021-06-05 16:48:16 公開日:2021-05-29
# (参考訳) 山西省における脳卒中の主な危険因子の解析と分類 [全文訳有]

Analysis and classification of main risk factors causing stroke in Shanxi Province ( http://arxiv.org/abs/2106.00002v1 )

ライセンス: CC BY 4.0
Junjie Liu, Yiyang Sun, Jing Ma, Jiachen Tu, Yuhui Deng, Ping He, Huaxiong Huang, Xiaoshuang Zhou, Shixin Xu(参考訳) 中国では近年、脳卒中が最初の死因となっている。 長期の身体的および認知的障害の主な原因であり、国家の公衆衛生システムに大きなプレッシャーとなっている。 中国における脳卒中予防と治療には脳卒中リスクの評価が重要である。 本研究は,2017~2020年に入院した脳卒中患者2000名と,患者27583名を対象にしたデータである。 データ不完全性、不一貫性、非構造化フォーマットのため、生データの値の欠如は、異常クラスとして-1で満たされる。 クリーンな機能により、機械学習手法を使用して、脳卒中のリスクレベルに関する3つのモデルが構築される。 中国国家ストローク予防プロジェクト(CSPP)の「8+2」要因の重要性は、決定木とランダム森林モデルを用いて評価される。 8+2因子を除くと、ライフスタイル情報、人口統計情報、医療測定における特徴とSHAP1値の重要性を評価し、ランダム森林モデルを用いてランク付けする。 さらに,ロジスティック回帰モデルを用いて異なるリスクレベルに対する脳卒中発生確率を評価する。 山西省の市町村と病院の国勢調査データをもとに,脳卒中リスク要因と,解釈可能な機械学習モデルによるランク付けについて検討した。 その結果,山西省では高血圧(体性血圧,拡張型血圧),身体不活性(スポーツの欠如),過体重(BMI)が脳卒中発症の危険因子の上位3つにランクされている。 また、人間の脳卒中の確率を機械学習モデルで予測することもできる。

In China, stroke is the first leading cause of death in recent years. It is a major cause of long-term physical and cognitive impairment, which bring great pressure on the National Public Health System. Evaluation of the risk of getting stroke is important for the prevention and treatment of stroke in China. A data set with 2000 hospitalized stroke patients in 2018 and 27583 residents during the year 2017 to 2020 is analyzed in this study. Due to data incompleteness, inconsistency, and non-structured formats, missing values in the raw data are filled with -1 as an abnormal class. With the cleaned features, three models on risk levels of getting stroke are built by using machine learning methods. The importance of "8+2" factors from China National Stroke Prevention Project (CSPP) is evaluated via decision tree and random forest models. Except for "8+2" factors the importance of features and SHAP1 values for lifestyle information, demographic information, and medical measurement are evaluated and ranked via a random forest model. Furthermore, a logistic regression model is applied to evaluate the probability of getting stroke for different risk levels. Based on the census data in both communities and hospitals from Shanxi Province, we investigate different risk factors of getting stroke and their ranking with interpretable machine learning models. The results show that Hypertension (Systolic blood pressure, Diastolic blood pressure), Physical Inactivity (Lack of sports), and Overweight (BMI) are ranked as the top three high-risk factors of getting stroke in Shanxi province. The probability of getting stroke for a person can also be predicted via our machine learning model.
翻訳日:2021-06-05 16:30:08 公開日:2021-05-29
# (参考訳) タスク指向対話システムにおける未知スロットタイプ検出のための新しいスロット検出ベンチマーク [全文訳有]

Novel Slot Detection: A Benchmark for Discovering Unknown Slot Types in the Task-Oriented Dialogue System ( http://arxiv.org/abs/2105.14313v1 )

ライセンス: CC BY 4.0
Yanan Wu, Zhiyuan Zeng, Keqing He, Hong Xu, Yuanmeng Yan, Huixing Jiang and Weiran Xu(参考訳) 既存のスロット充填モデルは、制限されたスロットセットから予め定義されたスロットタイプのみを認識できる。 実用的なアプリケーションでは、信頼できる対話システムは、それが知らないことを知っておくべきである。 本稿では,タスク指向対話システムにおいて,新しいタスクである新しいスロット検出(nsd)を提案する。 NSDは、ドメイン内のトレーニングデータに基づいて対話システムの能力を強化するために、未知または外部のスロットタイプを発見することを目的としている。 さらに、2つのパブリックなNSDデータセットを構築し、いくつかの強力なNSDベースラインを提案し、将来の作業のためのベンチマークを確立する。 最後に, 課題を理解するために, 徹底的な実験と質的分析を行い, 今後の方向性について新たな指導を行う。

Existing slot filling models can only recognize pre-defined in-domain slot types from a limited slot set. In the practical application, a reliable dialogue system should know what it does not know. In this paper, we introduce a new task, Novel Slot Detection (NSD), in the task-oriented dialogue system. NSD aims to discover unknown or out-of-domain slot types to strengthen the capability of a dialogue system based on in-domain training data. Besides, we construct two public NSD datasets, propose several strong NSD baselines, and establish a benchmark for future work. Finally, we conduct exhaustive experiments and qualitative analysis to comprehend key challenges and provide new guidance for future directions.
翻訳日:2021-06-05 16:18:08 公開日:2021-05-29
# (参考訳) 畳み込みニューラルネットワークを用いた境界ボックスアノテーションの自動CT分割 [全文訳有]

Automatic CT Segmentation from Bounding Box Annotations using Convolutional Neural Networks ( http://arxiv.org/abs/2105.14314v1 )

ライセンス: CC BY 4.0
Yuanpeng Liu, Qinglei Hui, Zhiyi Peng, Shaolin Gong and Dexing Kong(参考訳) 臨床診断には医用画像の正確なセグメンテーションが重要である。 既存の自動セグメンテーション手法は、主に完全に教師ありの学習に基づいており、正確なアノテーションの需要が非常に高く、非常に費用がかかり、時間を要する。 この問題に対処するため,我々は,境界ボックスという形で,弱いアノテーションでのみ正確なセグメント化モデルを訓練できる,弱い教師付き学習に基づくctセグメント化手法を提案した。 提案手法は,1)k平均クラスタリングによる境界ボックスアノテーションによる擬似マスクの生成,2)分割モデルとして3次元U-Net畳み込みニューラルネットワークを反復的に訓練する。 いくつかのデータ前処理手法は性能向上に使用される。 この方法は3種類の臓器を含む4つのデータセットで627個のCTボリュームで検証された。 肝臓,脾臓,腎分画では95.19%,92.11%,91.45% の精度を示した。 実験の結果,本手法は正確で,効率的であり,臨床応用に適していることが示された。

Accurate segmentation for medical images is important for clinical diagnosis. Existing automatic segmentation methods are mainly based on fully supervised learning and have an extremely high demand for precise annotations, which are very costly and time-consuming to obtain. To address this problem, we proposed an automatic CT segmentation method based on weakly supervised learning, by which one could train an accurate segmentation model only with weak annotations in the form of bounding boxes. The proposed method is composed of two steps: 1) generating pseudo masks with bounding box annotations by k-means clustering, and 2) iteratively training a 3D U-Net convolutional neural network as a segmentation model. Some data pre-processing methods are used to improve performance. The method was validated on four datasets containing three types of organs with a total of 627 CT volumes. For liver, spleen and kidney segmentation, it achieved an accuracy of 95.19%, 92.11%, and 91.45%, respectively. Experimental results demonstrate that our method is accurate, efficient, and suitable for clinical use.
翻訳日:2021-06-05 15:45:45 公開日:2021-05-29
# (参考訳) rpg: 再帰的ポイントクラウド生成の学習 [全文訳有]

RPG: Learning Recursive Point Cloud Generation ( http://arxiv.org/abs/2105.14322v1 )

ライセンス: CC BY 4.0
Wei-Jan Ko, Hui-Yu Huang, Yu-Liang Kuo, Chen-Yi Chiu, Li-Heng Wang, Wei-Chen Chiu(参考訳) 本稿では,意味部品からなる3次元点雲を再構成し,生成できる新しい点雲生成器を提案する。 対象3Dモデルの潜在表現が与えられた場合、生成は単一点から始まり、再帰的に拡大され、一連の点展開段階を経て高解像度の点雲を生成する。 生成過程において,各展開段階から対象3dモデルに対する粗粒度対細点雲を得るだけでなく,拡張段階における各点間の階層的・親子関係に基づき,対象モデルの意味的セグメンテーションを教師なしに発見する。 さらに、再帰的ジェネレータで使用される拡張モジュールや他の要素は重みを共有しているため、全体的なフレームワークは軽量で効率的である。 提案するポイントクラウドジェネレータは, 各種ベースラインと比較して, 生成タスクと再構築タスクの両面で同等あるいはそれ以上の優れた性能を示し, 同一オブジェクトクラスの3Dインスタンス間で一貫した協調処理を提供する。

In this paper we propose a novel point cloud generator that is able to reconstruct and generate 3D point clouds composed of semantic parts. Given a latent representation of the target 3D model, the generation starts from a single point and gets expanded recursively to produce the high-resolution point cloud via a sequence of point expansion stages. During the recursive procedure of generation, we not only obtain the coarse-to-fine point clouds for the target 3D model from every expansion stage, but also unsupervisedly discover the semantic segmentation of the target model according to the hierarchical/parent- child relation between the points across expansion stages. Moreover, the expansion modules and other elements used in our recursive generator are mostly sharing weights thus making the overall framework light and efficient. Extensive experiments are conducted to demonstrate that our proposed point cloud generator has comparable or even superior performance on both generation and reconstruction tasks in comparison to various baselines, as well as provides the consistent co-segmentation among 3D instances of the same object class.
翻訳日:2021-06-05 15:28:48 公開日:2021-05-29
# (参考訳) スパイキング畳み込みニューラルネットワークにおける卵管刺激型フィルタの実装 : 予備的検討 [全文訳有]

Implementing a foveal-pit inspired filter in a Spiking Convolutional Neural Network: a preliminary study ( http://arxiv.org/abs/2105.14326v1 )

ライセンス: CC BY 4.0
Shriya T.P. Gupta, Basabdatta Sen Bhattacharya(参考訳) 我々は,gaussian filterとrank-order encodingの網膜foveal-pitをインスパイアしたspiking convolutional neural network (scnn)を提案する。 モデルは、Nengoライブラリに実装されているように、スパイキングニューロンで動作するように適応されたバックプロパゲーションアルゴリズムの変種を用いて訓練される。 我々は,2つの公開データセット(1つは数字認識タスク,もう1つは車両認識タスク)でモデルの性能を評価した。 ネットワークは最大90%の精度を達成し、クロスエントロピー関数を用いて損失を計算する。 これは、ニューラルネットワークを使わずに分類を行うという代替アプローチによって、約57%の精度で得られた改善である。 概念実証研究は,既存のSCNNアーキテクチャに生物学的に妥当なフィルタリングを導入することで,車両認識タスクのようなノイズの多い入力画像とうまく連携できることを示唆している。 本研究は, ランク順序付けに先立って, 横方向の抑制に基づく冗長性の低減を図り, ネットワークによる分類精度をさらに向上させることにより, SCNNの強化を図る。

We have presented a Spiking Convolutional Neural Network (SCNN) that incorporates retinal foveal-pit inspired Difference of Gaussian filters and rank-order encoding. The model is trained using a variant of the backpropagation algorithm adapted to work with spiking neurons, as implemented in the Nengo library. We have evaluated the performance of our model on two publicly available datasets - one for digit recognition task, and the other for vehicle recognition task. The network has achieved up to 90% accuracy, where loss is calculated using the cross-entropy function. This is an improvement over around 57% accuracy obtained with the alternate approach of performing the classification without any kind of neural filtering. Overall, our proof-of-concept study indicates that introducing biologically plausible filtering in existing SCNN architecture will work well with noisy input images such as those in our vehicle recognition task. Based on our results, we plan to enhance our SCNN by integrating lateral inhibition-based redundancy reduction prior to rank-ordering, which will further improve the classification accuracy by the network.
翻訳日:2021-06-05 15:14:49 公開日:2021-05-29
# (参考訳) GINA:独立スナップショットからのニューラルリレーショナル推論 [全文訳有]

GINA: Neural Relational Inference From Independent Snapshots ( http://arxiv.org/abs/2105.14329v1 )

ライセンス: CC BY 4.0
Gerrit Gro{\ss}mann, Julian Zimmerlin, Michael Backenk\"ohler, Verena Wolf(参考訳) エージェント間の局所的な相互作用が複雑な現象を引き起こす力学系は、自然と社会においてユビキタスである。 本研究は,そのようなシステムの未知の相互作用構造(グラフとして表される)を,その構成因子や個々の構成要素(ノードとして表される)の測定から推測する問題を考察する。 我々は、基礎となる力学モデルが未知であり、異なる測定値(スナップショット)が独立であるような設定を考える(例えば、異なる実験から生じるかもしれない)。 本稿では,グラフニューラルネットワーク(GNN)であるGINA(Graph Inference Network Architecture)を提案する。 GINAは、全ての潜在的なグラフのうち、基底真理相互作用グラフは、隣人の状態からノードの状態を予測することができ、最も高い精度で予測できるという仮説に基づいている。 この仮説を検証し、GINAの幅広い相互作用グラフと動的プロセスにおける有効性を示す。

Dynamical systems in which local interactions among agents give rise to complex emerging phenomena are ubiquitous in nature and society. This work explores the problem of inferring the unknown interaction structure (represented as a graph) of such a system from measurements of its constituent agents or individual components (represented as nodes). We consider a setting where the underlying dynamical model is unknown and where different measurements (i.e., snapshots) may be independent (e.g., may stem from different experiments). We propose GINA (Graph Inference Network Architecture), a graph neural network (GNN) to simultaneously learn the latent interaction graph and, conditioned on the interaction graph, the prediction of a node's observable state based on adjacent vertices. GINA is based on the hypothesis that the ground truth interaction graph -- among all other potential graphs -- allows to predict the state of a node, given the states of its neighbors, with the highest accuracy. We test this hypothesis and demonstrate GINA's effectiveness on a wide range of interaction graphs and dynamical processes.
翻訳日:2021-06-05 15:01:04 公開日:2021-05-29
# (参考訳) DVSスパイク応答のFoveal-pitによるフィルタリング [全文訳有]

Foveal-pit inspired filtering of DVS spike response ( http://arxiv.org/abs/2105.14331v1 )

ライセンス: CC BY 4.0
Shriya T.P. Gupta, Pablo Linares-Serrano, Basabdatta Sen Bhattacharya, Teresa Serrano-Gotarredona(参考訳) 本稿では,gaussian(dog)フィルタのfoveal-pitインスパイアされた差分に基づく網膜モデルを用いて,視覚パターンのdvs(dynamic vision sensor)記録を処理した結果について述べる。 DVSセンサは、水平方向に一定の速度で移動する異なる空間周波数の垂直な白黒バー数で刺激された。 DVSセンサによって生成された出力スパイクを、霊長類視覚経路の受容野構造にインスパイアされた一連のDoGフィルタに入力として適用した。 特に、これらのフィルターは、卵胞の光受容を補助するミッドジェットおよびパラソル神経節細胞の受容野(網膜のスパイキングニューロン)を模倣している。 foveal-pitモデルで抽出された特徴は、スパイクニューラルネットワークに適したバックプロパゲーション変種で訓練されたスパイク畳み込みニューラルネットワークを使用してさらに分類される。

In this paper, we present results of processing Dynamic Vision Sensor (DVS) recordings of visual patterns with a retinal model based on foveal-pit inspired Difference of Gaussian (DoG) filters. A DVS sensor was stimulated with varying number of vertical white and black bars of different spatial frequencies moving horizontally at a constant velocity. The output spikes generated by the DVS sensor were applied as input to a set of DoG filters inspired by the receptive field structure of the primate visual pathway. In particular, these filters mimic the receptive fields of the midget and parasol ganglion cells (spiking neurons of the retina) that sub-serve the photo-receptors of the foveal-pit. The features extracted with the foveal-pit model are used for further classification using a spiking convolutional neural network trained with a backpropagation variant adapted for spiking neural networks.
翻訳日:2021-06-05 14:46:55 公開日:2021-05-29
# (参考訳) ニューラルネットワークを用いたx線診断 [全文訳有]

Covid-19 diagnosis from x-ray using neural networks ( http://arxiv.org/abs/2105.14333v1 )

ライセンス: CC0 1.0
Dinesh J and Mohammed Rhithick A(参考訳) コロナウイルスや新型コロナウイルス(covid-19)は、世界中で何百万もの因果関係に影響を与え、少数の個人に感染しているパンデミック(covid-19)の病気である。 現在、COVID-19の分析に使われている主な臨床機器は、RT-PCRとして知られる逆レコードポリメラーゼ鎖反応であり、費用がかかり、より少なく、特定の臨床作業力を必要とする。 X線イメージングは、新型コロナウイルス(COVID-19)の結論に最適な選択肢となる、効果的に利用可能な装置である。 この調査は、胸部x線写真からcovid-19を迅速かつ正確に認識するコンピュータ推論の有用性を調べるために行われた。 本研究の目的は,事前に準備した深層学習計算を応用した高度な胸部x線画像から新型コロナウイルスをプログラム的に認識する手法を提案することである。 ポイントは、臨床専門家に学習画像の特徴付けモデルを通して第二の目を与えることだ。 我々は、いくつかの主流CNNモデルの類似の調査を開始することで、適切な畳み込みニューラルネットワーク-CNNモデルを区別する。

Corona virus or COVID-19 is a pandemic illness, which has influenced more than million of causalities worldwide and infected a few large number of individuals .Innovative instrument empowering quick screening of the COVID-19 contamination with high precision can be critically useful to the medical care experts. The primary clinical device presently being used for the analysis of COVID-19 is the Reverse record polymerase chain response as known as RT-PCR, which is costly, less-delicate and requires specific clinical work force. X-Ray imaging is an effectively available apparatus that can be a great option in the COVID-19 conclusion. This exploration was taken to examine the utility of computerized reasoning in the quick and exact recognition of COVID-19 from chest X-Ray pictures. The point of this paper is to propose a procedure for programmed recognition of COVID-19 from advanced chest X-Ray images applying pre-prepared profound learning calculations while boosting the discovery exactness. The point is to give over-focused on clinical experts a second pair of eyes through a learning picture characterization models. We distinguish an appropriate Convolutional Neural Network-CNN model through beginning similar investigation of a few mainstream CNN models.
翻訳日:2021-06-05 14:35:26 公開日:2021-05-29
# (参考訳) エンサンブルCNN-DNNによるトウモロコシ収量予測 [全文訳有]

Corn Yield Prediction with Ensemble CNN-DNN ( http://arxiv.org/abs/2105.14351v1 )

ライセンス: CC0 1.0
Mohsen Shahhosseini, Guiping Hu, Saeed Khaki, Sotirios V. Archontoulis(参考訳) コーンベルト(12州)における郡レベルのトウモロコシ収量予測における2つの新しいCNN-DNN機械学習アンサンブルモデルの予測性能について検討した。 開発されたデータセットは、1980-2019年の管理、環境、および歴史的トウモロコシの収量の組み合わせである。 アンサンブル生成の2つのシナリオ:同種および異種アンサンブル。 均質なアンサンブルでは、ベースとなるCNN-DNNモデルは全て同じであるが、特定のレベルの多様性を示すために、バッジ手順で生成される。 異種アンサンブルは、同じアーキテクチャを共有するが深さのレベルが異なる異なるCNN-DNNモデルから作られる。 BEM(Basic Ensemble Method)、GEM(Generalized Ensemble Method)、GEM(Stacked Generalized Ensemble Method)の3種類のアンサンブル生成手法を用いて、どちらのシナリオでも複数のアンサンブルを生成する。 その結果,5種類のMLモデル(線形回帰,LASSO,ランダムフォレスト,XGBoost,LightGBM)のアンサンブルは,設計したアンサンブルタイプ(ヘテロジニカル,ホモジニカル)ともに優れていた。 さらに、異種アンサンブルの改良を導入することで、同種アンサンブルはUSコーンベルト州全体で最も正確な収量予測を提供する。 このモデルにより、2019年の収率予測は866 kg/haで、8.5%の相対的な根平均二乗に相当し、トウモロコシの収率の時空間変動の約77%をうまく説明できる。 このモデルのかなりの予測力は、トウモロコシの収量予測のための信頼性の高いツールを設計するために利用することができる。

We investigate the predictive performance of two novel CNN-DNN machine learning ensemble models in predicting county-level corn yields across the US Corn Belt (12 states). The developed data set is a combination of management, environment, and historical corn yields from 1980-2019. Two scenarios for ensemble creation are considered: homogenous and heterogeneous ensembles. In homogenous ensembles, the base CNN-DNN models are all the same, but they are generated with a bagging procedure to ensure they exhibit a certain level of diversity. Heterogenous ensembles are created from different base CNN-DNN models which share the same architecture but have different levels of depth. Three types of ensemble creation methods were used to create several ensembles for either of the scenarios: Basic Ensemble Method (BEM), Generalized Ensemble Method (GEM), and stacked generalized ensembles. Results indicated that both designed ensemble types (heterogenous and homogenous) outperform the ensembles created from five individual ML models (linear regression, LASSO, random forest, XGBoost, and LightGBM). Furthermore, by introducing improvements over the heterogeneous ensembles, the homogenous ensembles provide the most accurate yield predictions across US Corn Belt states. This model could make 2019 yield predictions with a root mean square error of 866 kg/ha, equivalent to 8.5% relative root mean square, and could successfully explain about 77% of the spatio-temporal variation in the corn grain yields. The significant predictive power of this model can be leveraged for designing a reliable tool for corn yield prediction which will, in turn, assist agronomic decision-makers.
翻訳日:2021-06-05 14:32:36 公開日:2021-05-29
# (参考訳) グラフ類似性の説明: このグラフはどのように似ているか? [全文訳有]

Graph Similarity Description: How Are These Graphs Similar? ( http://arxiv.org/abs/2105.14364v1 )

ライセンス: CC BY 4.0
Corinna Coupette, Jilles Vreeken(参考訳) ソーシャルネットワークはプラットフォームによってどう違うのか? 情報ネットワークは時間とともにどのように変化するのか? このような質問に答えるには、2つ以上のグラフを比較する必要があります。 このタスクは一般に測定問題として扱われるが、数値的な答えは限られた洞察を与える。 ここでは,理解を得ることが目的ならば,グラフ類似性評価を記述問題として扱うべきだと論じる。 我々は,この問題を最小記述長原理を用いてモデル選択タスクとして定式化し,共通モデルにおける入力グラフの類似性と各モデルへの変換におけるそれらの差異を捉えた。 優れたモデルを発見するために,この問題を2つの部分に分割し,それぞれに効率的なアルゴリズムを導入するMomoを提案する。 さまざまな合成および実世界のグラフに関する広範な実験を通して、Momoが実際にうまく機能していることを確認する。

How do social networks differ across platforms? How do information networks change over time? Answering questions like these requires us to compare two or more graphs. This task is commonly treated as a measurement problem, but numerical answers give limited insight. Here, we argue that if the goal is to gain understanding, we should treat graph similarity assessment as a description problem instead. We formalize this problem as a model selection task using the Minimum Description Length principle, capturing the similarity of the input graphs in a common model and the differences between them in transformations to individual models. To discover good models, we propose Momo, which breaks the problem into two parts and introduces efficient algorithms for each. Through an extensive set of experiments on a wide range of synthetic and real-world graphs, we confirm that Momo works well in practice.
翻訳日:2021-06-05 14:15:47 公開日:2021-05-29
# (参考訳) 恐怖のないフィット:補間のプリズムによる深層学習の驚くべき数学的現象

Fit without fear: remarkable mathematical phenomena of deep learning through the prism of interpolation ( http://arxiv.org/abs/2105.14368v1 )

ライセンス: CC BY 4.0
Mikhail Belkin(参考訳) 過去10年間で、機械学習の数学的理論は、実用的な課題に対するディープニューラルネットワークの勝利よりもずっと遅れている。 しかし、理論と実践のギャップは徐々に狭まりつつある。 本稿では, 深層学習の基礎を理解するための試みから, 目覚ましい, まだ未完成な数学的モザイクのいくつかを組み立てることを試みる。 2つの主要なテーマは補間であり、その兄弟であるオーバーパラメータ化である。 補間は、正確にはノイズの多いデータでさえも適合するデータに対応する。 オーバーパラメータ化は補間を可能にし、適切な補間モデルを選択する柔軟性を提供する。 物理プリズムが光線の中に混ざった色を分離するのと同じように、補間の比法的プリズムは、現代の機械学習の複雑な画像の中で、一般化と最適化のプロパティを分離するのに役立ちます。 この記事は、これらの問題のより明確な理解が深層学習と機械学習の一般的な理論に一歩近づいたことを確信して書かれています。

In the past decade the mathematical theory of machine learning has lagged far behind the triumphs of deep neural networks on practical challenges. However, the gap between theory and practice is gradually starting to close. In this paper I will attempt to assemble some pieces of the remarkable and still incomplete mathematical mosaic emerging from the efforts to understand the foundations of deep learning. The two key themes will be interpolation, and its sibling, over-parameterizatio n. Interpolation corresponds to fitting data, even noisy data, exactly. Over-parameterizatio n enables interpolation and provides flexibility to select a right interpolating model. As we will see, just as a physical prism separates colors mixed within a ray of light, the figurative prism of interpolation helps to disentangle generalization and optimization properties within the complex picture of modern Machine Learning. This article is written with belief and hope that clearer understanding of these issues brings us a step closer toward a general theory of deep learning and machine learning.
翻訳日:2021-06-05 13:49:51 公開日:2021-05-29
# (参考訳) BAAI-VANJEEロードサイドデータセット:中国の混在環境におけるコネクテッド・オートモービル・ハイウェイ技術に向けて [全文訳有]

BAAI-VANJEE Roadside Dataset: Towards the Connected Automated Vehicle Highway technologies in Challenging Environments of China ( http://arxiv.org/abs/2105.14370v1 )

ライセンス: CC BY 4.0
Deng Yongqiang, Wang Dengjiang, Cao Gang, Ma Bing, Guan Xijia, Wang Yajun, Liu Jianchao, Fang Yanming, Li Juanjuan(参考訳) 道路サイドの認識は、コネクテッドオートモービル・ハイウェイ(cavh)技術においてますます重要な役割を果たすため、ベンチマーキングや2d/3dオブジェクト検出やマルチセンサー融合といった様々なコンピュータビジョンタスクのトレーニングのための現実世界の道路サイドデータセットに直ちに挑戦する必要がある。 本稿ではまず,道路脇に約4.5mの高さのVANJEEスマート基地局が収集したLiDARデータとRGB画像からなる,挑戦的なBAAI-VANJEEロードサイドデータセットを紹介する。 このデータセットは、2500フレームのlidarデータと5000フレームのrgbイメージを同時に収集した20%を含む。 12のオブジェクトクラス、74Kの3Dオブジェクトアノテーション、105Kの2Dオブジェクトアノテーションを含んでいる。 リアルに複雑な都市交差点と高速道路のシーンを提供することで、BAAI-VANJEEロードサイドデータセットは、ビッグデータ時代のインテリジェント交通分野におけるイノベーション研究と達成の変革を加速するために、学術・産業界を積極的に支援することを期待している。

As the roadside perception plays an increasingly significant role in the Connected Automated Vehicle Highway(CAVH) technologies, there are immediate needs of challenging real-world roadside datasets for bench marking and training various computer vision tasks such as 2D/3D object detection and multi-sensor fusion. In this paper, we firstly introduce a challenging BAAI-VANJEE roadside dataset which consist of LiDAR data and RGB images collected by VANJEE smart base station placed on the roadside about 4.5m high. This dataset contains 2500 frames of LiDAR data, 5000 frames of RGB images, including 20% collected at the same time. It also contains 12 classes of objects, 74K 3D object annotations and 105K 2D object annotations. By providing a real complex urban intersections and highway scenes, we expect the BAAI-VANJEE roadside dataset will actively assist the academic and industrial circles to accelerate the innovation research and achievement transformation in the field of intelligent transportation in big data era.
翻訳日:2021-06-03 14:57:56 公開日:2021-05-29
# 新型コロナウイルス関連政策のアウトブレイクダイナミクスへの影響評価 : 米国における事例研究

Assessing the Causal Impact of COVID-19 Related Policies on Outbreak Dynamics: A Case Study in the US ( http://arxiv.org/abs/2106.01315v1 )

ライセンス: Link先を確認
Jing Ma, Yushun Dong, Zheng Huang, Daniel Mietchen, Jundong Li(参考訳) 新型コロナウイルス(COVID-19)の感染拡大を抑えるため、意思決定者や当局はさまざまな非医薬品政策を発表した。 新型コロナウイルスの感染拡大を抑制する政策の因果的影響を分析することは、今後の政策決定にとって重要である。 ここでの最大の課題は、観察されていない共同設立者(例えば住民の警戒)の存在である。 さらに、共同創設者は新型コロナウイルス(COVID-19)の期間(例えば、パンデミックの過程で住民の警戒が変わる)も変化しているため、彼らを捕まえることはさらに困難である。 そこで本研究では, 異なる新型コロナウイルス関連政策が, 一定期間の異なる郡におけるアウトブレイク動態に与える影響を, 評価する問題について検討する。 この目的のために、米国各郡における異なるcovid-19関連政策(治療)とアウトカムダイナミクス(アウトカム)のデータを統合し、異なる郡の共変量、それらの関係情報、歴史情報を含む共同創設者を推測できる変数について分析する。 これらのデータに基づいて,観測データにおける上記の情報を活用するニューラルネットワークに基づく因果効果推定フレームワークを開発し,時間変動(非観測)共同創設者の表現を学習する。 このようにして、特定の目標を持つポリシーのカテゴリから、このカテゴリの特定のポリシータイプまで、さまざまな粒度におけるポリシーの因果的影響を定量化することができます。 また,異なる政策の因果的影響を定量化する上で,提案手法の有効性を示す実験結果も得られた。 より具体的には、いくつかの基準法と比較して、我々のフレームワークはより正確に発生動態を捉え、我々の政策評価は、既存の新型コロナウイルスの疫学研究とより一致している。

To mitigate the spread of COVID-19 pandemic, decision-makers and public authorities have announced various non-pharmaceutical policies. Analyzing the causal impact of these policies in reducing the spread of COVID-19 is important for future policy-making. The main challenge here is the existence of unobserved confounders (e.g., vigilance of residents). Besides, as the confounders may be time-varying during COVID-19 (e.g., vigilance of residents changes in the course of the pandemic), it is even more difficult to capture them. In this paper, we study the problem of assessing the causal effects of different COVID-19 related policies on the outbreak dynamics in different counties at any given time period. To this end, we integrate data about different COVID-19 related policies (treatment) and outbreak dynamics (outcome) for different United States counties over time and analyze them with respect to variables that can infer the confounders, including the covariates of different counties, their relational information and historical information. Based on these data, we develop a neural network based causal effect estimation framework which leverages above information in observational data and learns the representations of time-varying (unobserved) confounders. In this way, it enables us to quantify the causal impact of policies at different granularities, ranging from a category of policies with a certain goal to a specific policy type in this category. Besides, experimental results also indicate the effectiveness of our proposed framework in capturing the confounders for quantifying the causal impact of different policies. More specifically, compared with several baseline methods, our framework captures the outbreak dynamics more accurately, and our assessment of policies is more consistent with existing epidemiological studies of COVID-19.
翻訳日:2021-06-03 14:16:35 公開日:2021-05-29
# (参考訳) ベイズネットワークにおけるオッズの微調整 [全文訳有]

Fine-Tuning the Odds in Bayesian Networks ( http://arxiv.org/abs/2105.14371v1 )

ライセンス: CC BY 4.0
Bahare Salmani and Joost-Pieter Katoen(参考訳) 本稿では,条件付き確率表(CPT)がシンボル変数を含むベイズネットワークの新しい解析手法を提案する。 重要なアイデアは、パラメトリックマルコフ連鎖の合成問題にスケーラブルで強力な技術を活用することである。 我々の手法は、様々なCPTで起こりうる、任意に多くの依存パラメータに適用できる。 これは例えばパラメトリックベイズネットワーク(pBN)の既存の作業において、パラメトリックCPTの数を1つまたは2つに制限したり、複数のCPT間のパラメータ依存を避けることでパラメータの厳しい制限を解除する。 本稿では, 計算感度関数(および値), 単純・差分パラメータチューニング, 比パラメータチューニング, 最小変分チューニングなどの文献で研究されている様々なpBN合成問題に対して, 本手法をどのように利用できるかを説明する。 いくつかのベンチマークの実験では、確率論的モデルチェッカーStormの上に構築されたプロトタイプツールが数百のパラメータを処理可能であることが示されている。

This paper proposes various new analysis techniques for Bayes networks in which conditional probability tables (CPTs) may contain symbolic variables. The key idea is to exploit scalable and powerful techniques for synthesis problems in parametric Markov chains. Our techniques are applicable to arbitrarily many, possibly dependent parameters that may occur in various CPTs. This lifts the severe restrictions on parameters, e.g., by restricting the number of parametrized CPTs to one or two, or by avoiding parameter dependencies between several CPTs, in existing works for parametric Bayes networks (pBNs). We describe how our techniques can be used for various pBN synthesis problems studied in the literature such as computing sensitivity functions (and values), simple and difference parameter tuning, ratio parameter tuning, and minimal change tuning. Experiments on several benchmarks show that our prototypical tool built on top of the probabilistic model checker Storm can handle several hundreds of parameters.
翻訳日:2021-06-03 14:15:39 公開日:2021-05-29
# (参考訳) 生物学の深層学習のための10のヒント [全文訳有]

Ten Quick Tips for Deep Learning in Biology ( http://arxiv.org/abs/2105.14372v1 )

ライセンス: CC BY 4.0
Benjamin D. Lee, Anthony Gitter, Casey S. Greene, Sebastian Raschka, Finlay Maguire, Alexander J. Titus, Michael D. Kessler, Alexandra J. Lee, Marc G. Chevrette, Paul Allen Stewart, Thiago Britto-Borges, Evan M. Cofer, Kun-Hsing Yu, Juan Jose Carmona, Elana J. Fertig, Alexandr A. Kalinin, Beth Signal, Benjamin J. Lengerich, Timothy J. Triche Jr, Simina M. Boca(参考訳) 機械学習は問題解決とタスク自動化の現代的なアプローチである。 特に機械学習は、データのパターンを認識して予測モデリングに使用できるアルゴリズムの開発と応用に関するものである。 ニューラルネットワークは、現在ディープラーニングと呼ばれているものへと進化した機械学習アルゴリズムとモデルの特定のクラスである。 過去10年間に行われた計算の進歩を踏まえると、ディープラーニングは巨大なデータセットや無数のコンテキストに適用できる。 そのため、ディープラーニングは独自の機械学習のサブフィールドになっている。 生物学的研究の文脈では、高次元の生物学的データから新しい知見を導き出すのにますます使われている。 機械学習の経験のある科学者にとって、ディープラーニングの生物学的応用をより容易にするために、さまざまな生物学的および深層学習の関心を持つ研究者のコミュニティからのインプットを要請した。 これらの個人は、github version control platformとmanubot manuscript generation toolsetを使って、この原稿の執筆に協力して貢献した。 目的は、ディープラーニングを使う際に従うための、実践的で、アクセスしやすく、簡潔なガイドラインと提案を明確にすることであった。 議論の過程では、ディープラーニングの基盤として機械学習の基本を理解することの重要性、慎重に評価したモデル比較の必要性、ディープラーニングによる結果の解釈における批判的思考の必要性など、いくつかのテーマが明らかになった。

Machine learning is a modern approach to problem-solving and task automation. In particular, machine learning is concerned with the development and applications of algorithms that can recognize patterns in data and use them for predictive modeling. Artificial neural networks are a particular class of machine learning algorithms and models that evolved into what is now described as deep learning. Given the computational advances made in the last decade, deep learning can now be applied to massive data sets and in innumerable contexts. Therefore, deep learning has become its own subfield of machine learning. In the context of biological research, it has been increasingly used to derive novel insights from high-dimensional biological data. To make the biological applications of deep learning more accessible to scientists who have some experience with machine learning, we solicited input from a community of researchers with varied biological and deep learning interests. These individuals collaboratively contributed to this manuscript's writing using the GitHub version control platform and the Manubot manuscript generation toolset. The goal was to articulate a practical, accessible, and concise set of guidelines and suggestions to follow when using deep learning. In the course of our discussions, several themes became clear: the importance of understanding and applying machine learning fundamentals as a baseline for utilizing deep learning, the necessity for extensive model comparisons with careful evaluation, and the need for critical thought in interpreting results generated by deep learning, among others.
翻訳日:2021-06-03 13:57:32 公開日:2021-05-29
# (参考訳) ツイートにおける感情分析:古典的テキスト表現モデルから現代的テキスト表現モデルへ

Sentiment analysis in tweets: an assessment study from classical to modern text representation models ( http://arxiv.org/abs/2105.14373v1 )

ライセンス: CC BY-SA 4.0
S\'ergio Barreto, Ricardo Moura, Jonnathan Carvalho, Aline Paes, Alexandre Plastino(参考訳) Twitterなどのソーシャルメディアの成長に伴い、毎日多くのユーザー生成データが生まれている。 ツイッター上で公開された短いテキスト(ツイート)は、多くの意思決定プロセスのガイドとなる豊富な情報源として注目されている。 しかし, 感情分析を含む多くの自然言語処理(NLP)タスクにおいて, 形式的, 騒々しい言語スタイルなどの固有の特徴は依然として困難である。 知覚分類は主に機械学習に基づく分類器によって取り組まれている。 この文献では、ツイートをベクトルベースの入力に変換し、感情分類器をフィードする。 表現は、bag-of-wordsのような単純なカウントベースのメソッドから、trendy bertアーキテクチャ上に構築されたbertweetのようなより洗練されたメソッドへと導かれる。 しかしながら、ほとんどの研究は、少数のデータセットのみを使用してこれらのモデルを評価することに重点を置いている。 近年の言語モデリングの進歩にもかかわらず、ツイートの感情分析に適用されるインジェクション埋め込みの堅牢な評価には依然としてギャップがある。 さらに,近年,下流タスクからモデルを微調整する手法が注目されているが,データ固有の言語的スタイルに基づく調整にはあまり注意が向けられていない。 この文脈では、異なるドメインの22のデータセットと5つの分類アルゴリズムの豊富なコレクションを用いて、ツイートで表現された感情を区別する既存の言語モデルの評価を行う。 評価には静的表現とコンテキスト化表現が含まれる。 コンテキストはトランスフォーマーベースのオートエンコーダモデルから組み立てられ、多数の戦略を使用して、マスクされた言語モデルタスクに基づいて微調整される。

With the growth of social medias, such as Twitter, plenty of user-generated data emerge daily. The short texts published on Twitter -- the tweets -- have earned significant attention as a rich source of information to guide many decision-making processes. However, their inherent characteristics, such as the informal, and noisy linguistic style, remain challenging to many natural language processing (NLP) tasks, including sentiment analysis. Sentiment classification is tackled mainly by machine learning-based classifiers. The literature has adopted word representations from distinct natures to transform tweets to vector-based inputs to feed sentiment classifiers. The representations come from simple count-based methods, such as bag-of-words, to more sophisticated ones, such as BERTweet, built upon the trendy BERT architecture. Nevertheless, most studies mainly focus on evaluating those models using only a small number of datasets. Despite the progress made in recent years in language modelling, there is still a gap regarding a robust evaluation of induced embeddings applied to sentiment analysis on tweets. Furthermore, while fine-tuning the model from downstream tasks is prominent nowadays, less attention has been given to adjustments based on the specific linguistic style of the data. In this context, this study fulfils an assessment of existing language models in distinguishing the sentiment expressed in tweets by using a rich collection of 22 datasets from distinct domains and five classification algorithms. The evaluation includes static and contextualized representations. Contexts are assembled from Transformer-based autoencoder models that are also fine-tuned based on the masked language model task, using a plethora of strategies.
翻訳日:2021-06-03 13:33:36 公開日:2021-05-29
# (参考訳) 合成領域における画像残差の校正によるデータ駆動型6次元ポーズ追跡 [全文訳有]

Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains ( http://arxiv.org/abs/2105.14391v1 )

ライセンス: CC BY 4.0
Bowen Wen, Chaitanya Mitash and Kostas Bekris(参考訳) ビデオシーケンス中の物体の6Dポーズを追跡することはロボット操作にとって重要である。 この研究は、長期6Dポーズトラッキングのためのデータ駆動最適化アプローチであるSe(3)-TrackNetを提示する。 本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づく合成画像から、最適相対ポーズを特定することである。 このコンテキストにおける重要な貢献は、ドメインシフトを減らすために機能エンコーディングを適切に切り離す新しいニューラルネットワークアーキテクチャと、Lie Algebraによる効果的な3D配向表現である。 そのため、合成データのみを用いてネットワークを訓練しても、実際の画像上で効果的に機能する。 複数のベンチマークに対する総合的な実験では、Se(3)-TrackNetは、実際のイメージでトレーニングされているにもかかわらず、一貫して堅牢な見積もりを達成し、代替案を上回っている。 このアプローチは90.9Hzでリアルタイムに実行される。 このプロジェクトのコード、データ、補足ビデオはhttps://github.com/w enbowen123/iros20-6d -pose-trackingで入手できる。

Tracking the 6D pose of objects in video sequences is important for robot manipulation. This work presents se(3)-TrackNet, a data-driven optimization approach for long term, 6D pose tracking. It aims to identify the optimal relative pose given the current RGB-D observation and a synthetic image conditioned on the previous best estimate and the object's model. The key contribution in this context is a novel neural network architecture, which appropriately disentangles the feature encoding to help reduce domain shift, and an effective 3D orientation representation via Lie Algebra. Consequently, even when the network is trained solely with synthetic data can work effectively over real images. Comprehensive experiments over multiple benchmarks show se(3)-TrackNet achieves consistently robust estimates and outperforms alternatives, even though they have been trained with real images. The approach runs in real time at 90.9Hz. Code, data and supplementary video for this project are available at https://github.com/w enbowen123/iros20-6d -pose-tracking
翻訳日:2021-06-03 13:32:01 公開日:2021-05-29
# 分散シャドウ・リワード・アクター・クリティカルによる一般用途MARL

MARL with General Utilities via Decentralized Shadow Reward Actor-Critic ( http://arxiv.org/abs/2106.00543v1 )

ライセンス: Link先を確認
Junyu Zhang, Amrit Singh Bedi, Mengdi Wang, and Alec Koppel(参考訳) 我々は,チームの長期的状態行動占有度尺度の非線形機能,すなわち \emph{ General utility} に基づくマルチエージェント強化学習(MARL)における協調のための新しいメカニズムを提案する。 これは累積リターンを仮定するが、リスク感受性、探索、事前を組み込むこともできる。 %) は, 政策評価 (クリティック), 重み付け平均化 (情報混合), 政策パラメータの局所的勾配更新 (actor) と, 政策評価 (critic), 政策評価 (critic) を交互に交互に実施する dac (ecentralized {\bf s}hadow reward {\bf a}ctor-{\bf c}ritic (dsac) を導出した。 DSACは、(i)エージェントに対し、(ii)ローカルユーティリティーのデリバティブ、すなわち「シャドウ報酬」を見積もるために、(ii)ローカルユーティリティーのデリバティブを見積もることを要求することで、古典的な批評家のステップを強化する。 dsacは$\mathcal{o}(1/\epsilon^{2.5})$ (theorem \ref{theorem:final}) またはより高速な$\mathcal{o}(1/\epsilon^{2})$ (corollary \ref{corollary:communicat ion}) で$\epsilon$-stationar ityに収束する。 我々はさらに、この問題に対する散発的な静止点の非存在性、すなわちdsacがグローバルに最適なポリシーを見つける(corollary \ref{corollary:global})。 実験は、協調的なMARLにおける累積リターン以上の目標のメリットを実証する。

We posit a new mechanism for cooperation in multi-agent reinforcement learning (MARL) based upon any nonlinear function of the team's long-term state-action occupancy measure, i.e., a \emph{general utility}. This subsumes the cumulative return but also allows one to incorporate risk-sensitivity, exploration, and priors. % We derive the {\bf D}ecentralized {\bf S}hadow Reward {\bf A}ctor-{\bf C}ritic (DSAC) in which agents alternate between policy evaluation (critic), weighted averaging with neighbors (information mixing), and local gradient updates for their policy parameters (actor). DSAC augments the classic critic step by requiring agents to (i) estimate their local occupancy measure in order to (ii) estimate the derivative of the local utility with respect to their occupancy measure, i.e., the "shadow reward". DSAC converges to $\epsilon$-stationar ity in $\mathcal{O}(1/\epsilon^{2.5})$ (Theorem \ref{theorem:final}) or faster $\mathcal{O}(1/\epsilon^{2})$ (Corollary \ref{corollary:communicat ion}) steps with high probability, depending on the amount of communications. We further establish the non-existence of spurious stationary points for this problem, that is, DSAC finds the globally optimal policy (Corollary \ref{corollary:global}). Experiments demonstrate the merits of goals beyond the cumulative return in cooperative MARL.
翻訳日:2021-06-02 14:43:43 公開日:2021-05-29
# f$-divergence regularizationと一般化シンクホーンアルゴリズムを用いた最適輸送

Optimal transport with $f$-divergence regularization and generalized Sinkhorn algorithm ( http://arxiv.org/abs/2105.14337v1 )

ライセンス: Link先を確認
D\'avid Terj\'ek (1) and Diego Gonz\'alez-S\'anchez (1) ((1) Alfr\'ed R\'enyi Institute of Mathematics)(参考訳) エントロピー正則化は、元の最適輸送問題を一般化する。 Kullback-Leibler の発散によって定義されるペナルティ項を導入し、この問題をSinkhornアルゴリズムによってより魅力的にする。 Kullback-Leibler の発散を一般の$f$-divergence に置き換えると、自然な一般化につながる。 凸解析を用いて、ルジャンドル型の関数で定義される$f$-divergencesを含む理論を拡張し、いくつかの穏やかな条件下では、主問題と双対問題の両方における最適解が成立し、$c$-変換の一般化が適切に定義され、一般化されたシンクホーンアルゴリズムが最適解に収束する十分な条件を与える。 本稿では,一般化シンクホーンアルゴリズムを用いて,最適輸送コストとその勾配を計算するための実用的なアルゴリズムを提案する。 最後に, 最適結合の収束速度, 数値安定性, 疎結合性に影響を及ぼす正則化に異なる$f$-divergencesを用いることで, 合成2次元データに対する実験結果を示す。

Entropic regularization provides a generalization of the original optimal transport problem. It introduces a penalty term defined by the Kullback-Leibler divergence, making the problem more tractable via the celebrated Sinkhorn algorithm. Replacing the Kullback-Leibler divergence with a general $f$-divergence leads to a natural generalization. Using convex analysis, we extend the theory developed so far to include $f$-divergences defined by functions of Legendre type, and prove that under some mild conditions, strong duality holds, optimums in both the primal and dual problems are attained, the generalization of the $c$-transform is well-defined, and we give sufficient conditions for the generalized Sinkhorn algorithm to converge to an optimal solution. We propose a practical algorithm for computing the regularized optimal transport cost and its gradient via the generalized Sinkhorn algorithm. Finally, we present experimental results on synthetic 2-dimensional data, demonstrating the effects of using different $f$-divergences for regularization, which influences convergence speed, numerical stability and sparsity of the optimal coupling.
翻訳日:2021-06-02 14:28:15 公開日:2021-05-29
# ベイズデータ同化による世論トレンドの補正

Correcting public opinion trends through Bayesian data assimilation ( http://arxiv.org/abs/2105.14276v1 )

ライセンス: Link先を確認
Robin Hendrickx, Rossella Arcucci, Julio Amador D{\i}az Lopez, Yi-Ke Guo, and Mark Kennedy(参考訳) 世論測定は民主選挙において重要な焦点であり、候補者は人気を測り、選挙戦略を変えることができる。 従来の調査ポーリングは、コストと時間インテンシティ、測定エラー、リアルタイム能力の欠如、世論の遅れにもかかわらず、最も人気のある見積もり手法である。 近年、twitterの意見マイニングはこれらの問題と闘おうと試みている。 有望な結果を得たにもかかわらず、非代表的なサンプル人口や長期的な安定性の欠如といった独自の欠点を経験する。 本稿では,両手法のデータをベイズデータ同化を用いて統合し,eu離脱後の世論をより正確に推定することを目的とする。 本稿では,twitterの意見データと信頼度調査データを用いた提案手法の有効性を示す。 まず、2つのデータセットの間に16日間の時間間隔が存在する可能性を特定する。 このギャップはその後、提案された同化アーキテクチャに組み込まれる。 この方法は、両情報源からの情報を適切に取り込み、ブレグジット後の離脱支援の強い上昇傾向を測定することが判明した。 提案手法は,将来的な意見測定と予測研究に不可欠である真の意見の推定に有用である。

Measuring public opinion is a key focus during democratic elections, enabling candidates to gauge their popularity and alter their campaign strategies accordingly. Traditional survey polling remains the most popular estimation technique, despite its cost and time intensity, measurement errors, lack of real-time capabilities and lagged representation of public opinion. In recent years, Twitter opinion mining has attempted to combat these issues. Despite achieving promising results, it experiences its own set of shortcomings such as an unrepresentative sample population and a lack of long term stability. This paper aims to merge data from both these techniques using Bayesian data assimilation to arrive at a more accurate estimate of true public opinion for the Brexit referendum. This paper demonstrates the effectiveness of the proposed approach using Twitter opinion data and survey data from trusted pollsters. Firstly, the possible existence of a time gap of 16 days between the two data sets is identified. This gap is subsequently incorporated into a proposed assimilation architecture. This method was found to adequately incorporate information from both sources and measure a strong upward trend in Leave support leading up to the Brexit referendum. The proposed technique provides useful estimates of true opinion, which is essential to future opinion measurement and forecasting research.
翻訳日:2021-06-01 17:56:08 公開日:2021-05-29
# 1回当たりフィードバックによる強化学習の理論について

On the Theory of Reinforcement Learning with Once-per-Episode Feedback ( http://arxiv.org/abs/2105.14363v1 )

ライセンス: Link先を確認
Niladri S. Chatterji, Aldo Pacchiano, Peter L. Bartlett, Michael I. Jordan(参考訳) 本稿では,エピソード終了時にのみフィードバックを受ける強化学習理論(RL)を提案する。 これは理論の極端なテストケースであるが、学習者が毎回フィードバックを受け取るという従来のRL実践の要件よりも、現実世界の応用を代表していることは間違いない。 実際、自動運転車やロボット工学などの強化学習の現実的な応用では、学習者の完全な軌道が「良い」か「悪い」かを評価することは容易であるが、各ステップで報酬信号を提供することは困難である。 この難易度の高い環境では学習が可能であることを示すために,未知のパラメトリックモデルによって軌道ラベルが生成される場合を考察し,サブリニアな後悔を実現する統計的かつ計算効率の良いアルゴリズムを提供する。

We introduce a theory of reinforcement learning (RL) in which the learner receives feedback only once at the end of an episode. While this is an extreme test case for theory, it is also arguably more representative of real-world applications than the traditional requirement in RL practice that the learner receive feedback at every time step. Indeed, in many real-world applications of reinforcement learning, such as self-driving cars and robotics, it is easier to evaluate whether a learner's complete trajectory was either "good" or "bad," but harder to provide a reward signal at each step. To show that learning is possible in this more challenging setting, we study the case where trajectory labels are generated by an unknown parametric model, and provide a statistically and computationally efficient algorithm that achieves sub-linear regret.
翻訳日:2021-06-01 17:53:56 公開日:2021-05-29
# EDDA: モデルと説明アライメントを改善するための説明駆動データ拡張

EDDA: Explanation-driven Data Augmentation to Improve Model and Explanation Alignment ( http://arxiv.org/abs/2105.14162v1 )

ライセンス: Link先を確認
Ruiwen Li (co-first author), Zhibo Zhang (co-first author), Jiani Li, Scott Sanner, Jongseong Jang, Yeonjeong Jeong, Dongsub Shim(参考訳) 近年,画像分類器予測のホット後の説明可能性に関する様々な手法が導入されている。 しかし、これらのポストホックな説明は、必ずしも分類器の予測と完全に一致しないかもしれない。 そこで本研究では,モデル予測の整合性を改善する手法と,モデルと説明クラスに非依存であり,真理的な説明を必要としない説明手法を提案する。 本手法は,モデルと説明者が整列している場合,非正則領域は予測を変えるべきではないのに対して,モデル予測のための正則領域は予測におけるモデルの信頼性を低下させるべきだという単純な動機付け原理に基づく。 本手法がモデルアライメントと説明器アライメントを改善することを確認するため,様々なデータセット,画像分類モデル,説明手法について評価を行う。 説明駆動型データ拡張法が,データ拡張法や非説明駆動型データ拡張法と比較して,モデルと説明のアライメントを改善することを検証した。 結論として,このアプローチは,モデル予測と説明の整合性を改善するための,新しいモデル非依存な手法を提供する。

Recent years have seen the introduction of a range of methods for post-hoc explainability of image classifier predictions. However, these post-hoc explanations may not always align perfectly with classifier predictions, which poses a significant challenge when attempting to debug models based on such explanations. To this end, we seek a methodology that can improve alignment between model predictions and explanation method that is both agnostic to the model and explanation classes and which does not require ground truth explanations. We achieve this through a novel explanation-driven data augmentation (EDDA) method that augments the training data with occlusions of existing data stemming from model-explanations; this is based on the simple motivating principle that occluding salient regions for the model prediction should decrease the model confidence in the prediction, while occluding non-salient regions should not change the prediction -- if the model and explainer are aligned. To verify that this augmentation method improves model and explainer alignment, we evaluate the methodology on a variety of datasets, image classification models, and explanation methods. We verify in all cases that our explanation-driven data augmentation method improves alignment of the model and explanation in comparison to no data augmentation and non-explanation driven data augmentation methods. In conclusion, this approach provides a novel model- and explainer-agnostic methodology for improving alignment between model predictions and explanations, which we see as a critical step forward for practical deployment and debugging of image classification models.
翻訳日:2021-06-01 17:53:05 公開日:2021-05-29
# 動的環境における共通地盤の維持

Maintaining Common Ground in Dynamic Environments ( http://arxiv.org/abs/2105.14207v1 )

ライセンス: Link先を確認
Takuma Udagawa and Akiko Aizawa(参考訳) 共通基盤は相互理解の作成と維持のプロセスであり、これは高度な人間のコミュニケーションの重要な側面である。 既存の文献では様々なタスク設定が提案されているが、それらは主に静的コンテキストで共通の基盤を作成し、動的コンテキストでオーバータイムを維持する側面を無視することに焦点を当てている。 本研究では,動的環境における共通地盤の創出と維持の両立を両立させる新しいタスク・セッティングを提案する。 最小のタスク定式化に基づいて5,617の対話の大規模データセットを収集し,様々な対話システムの詳細な評価と分析を可能にした。 データセット分析を通じて、複雑な時空間表現を用いて共通基盤を作成し維持するなど、我々の設定で導入された新しい課題を強調した。 最後に,ベースライン対話システムの能力を評価するための広範な実験を行い,研究の今後の展望について考察する。

Common grounding is the process of creating and maintaining mutual understandings, which is a critical aspect of sophisticated human communication. While various task settings have been proposed in existing literature, they mostly focus on creating common ground under static context and ignore the aspect of maintaining them overtime under dynamic context. In this work, we propose a novel task setting to study the ability of both creating and maintaining common ground in dynamic environments. Based on our minimal task formulation, we collected a large-scale dataset of 5,617 dialogues to enable fine-grained evaluation and analysis of various dialogue systems. Through our dataset analyses, we highlight novel challenges introduced in our setting, such as the usage of complex spatio-temporal expressions to create and maintain common ground. Finally, we conduct extensive experiments to assess the capabilities of our baseline dialogue system and discuss future prospects of our research.
翻訳日:2021-06-01 17:50:15 公開日:2021-05-29
# CoDesc: 大規模なコード記述並列データセット

CoDesc: A Large Code-Description Parallel Dataset ( http://arxiv.org/abs/2105.14220v1 )

ライセンス: Link先を確認
Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal, Rifat Shahriyar(参考訳) 自然言語とソースコードの翻訳は、開発者が自然言語でコンピュータプログラムを理解、考案、検索、記述できるようにすることで、ソフトウェア開発に役立つ。 業界や研究コミュニティからの関心が高まっているにもかかわらず、ディープニューラルネットワークモデルのトレーニングや標準ノイズ除去方法、評価ベンチマークに適した大きな標準データセットがないため、このタスクは難しいことが多い。 これにより、研究者は新しい小さなデータセットを収集し、その結果、出版された作品間で矛盾が生じます。 本研究では,420万のJavaメソッドと自然言語記述からなる大規模並列データセットであるCoDescを提案する。 広範な分析によって、データセットから一般的なノイズパターンを識別し、除去する。 コード記述ペアに対する2つの補完的なタスクとして,コード要約とコード検索を行う。 このデータセットは、コード検索を最大22\%改善し、コード要約における新たな最先端を実現する。 さらに,CoDescが事前トレーニング,微調整,Javaの事前トレーニング言語モデル構築に有効であることを示す。 今後の研究を容易にするために、データセット、データ処理ツール、およびベンチマークを \url{https://github.com/c sebuetnlp/CoDesc} でリリースする。

Translation between natural language and source code can help software development by enabling developers to comprehend, ideate, search, and write computer programs in natural language. Despite growing interest from the industry and the research community, this task is often difficult due to the lack of large standard datasets suitable for training deep neural models, standard noise removal methods, and evaluation benchmarks. This leaves researchers to collect new small-scale datasets, resulting in inconsistencies across published works. In this study, we present CoDesc -- a large parallel dataset composed of 4.2 million Java methods and natural language descriptions. With extensive analysis, we identify and remove prevailing noise patterns from the dataset. We demonstrate the proficiency of CoDesc in two complementary tasks for code-description pairs: code summarization and code search. We show that the dataset helps improve code search by up to 22\% and achieves the new state-of-the-art in code summarization. Furthermore, we show CoDesc's effectiveness in pre-training--fine-t uning setup, opening possibilities in building pretrained language models for Java. To facilitate future research, we release the dataset, a data processing tool, and a benchmark at \url{https://github.com/c sebuetnlp/CoDesc}.
翻訳日:2021-06-01 17:50:00 公開日:2021-05-29
# Sluice Resolutionは本当に単なる質問回答なのか?

Is Sluice Resolution really just Question Answering? ( http://arxiv.org/abs/2105.14347v1 )

ライセンス: Link先を確認
Peratham Wiriyathammabhum(参考訳) 溶解分解能は、システムが対応するワレリプスの先行成分を出力する必要がある問題である。 先行語はwhワードの背後に隠れた内容であるが、暗黙的に文脈を使って言及される。 以前のワークフレームでは、この設定が前のすべてのワークを大きなマージンで上回る質問応答として、解像度が低下している。 エリプシと質問は参照依存表現(アナフォラ)であり、対応する先行者が質問に答えて明確な情報を出力するようなものだ。 しかし、そのタスクは完全には解決されていない。 そこで我々は,スライス解決法の違いを疑問視し,誤差のギャップを埋めるために,さらに検討する。 また,従来の作業(86.01から90.39 F1)を改善する最新の質問応答システムを用いて,いくつかの結果を示す。

Sluice resolution is a problem where a system needs to output the corresponding antecedents of wh-ellipses. The antecedents are elided contents behind the wh-words but are implicitly referred to using contexts. Previous work frames sluice resolution as question answering where this setting outperforms all its preceding works by large margins. Ellipsis and questions are referentially dependent expressions (anaphoras) and retrieving the corresponding antecedents are like answering questions to output pieces of clarifying information. However, the task is not fully solved. Therefore, we want to further investigate what makes sluice resolution differ to question answering and fill in the error gaps. We also present some results using recent state-of-the-art question answering systems which improve the previous work (86.01 to 90.39 F1).
翻訳日:2021-06-01 17:49:40 公開日:2021-05-29
# lpf:不偏視質問応答のための言語優先フィードバック目的関数

LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering ( http://arxiv.org/abs/2105.14300v1 )

ライセンス: Link先を確認
Zujie Liang, Haifeng Hu and Jiaying Zhu(参考訳) 既存のVisual Question Answering (VQA)システムの多くは、言語バイアスに過度に依存しているため、視覚的な手がかりから推論することができない。 この問題に対処するため,VQA損失における各回答の損失値の比率を再バランスする,新たなLanguage-Prior Feedback(LPF)目標関数を提案する。 LPFはまず、質問専用分岐を用いて言語バイアスを決定する変調係数を算出する。 そして、LPFは、トレーニングプロセスにおける各トレーニングサンプルに自己適応重量を割り当てる。 この再加重機構により、LPFは全VQA損失をよりバランスの取れた形に変形させることができる。 つまり、特定の視覚情報を必要とするサンプルは、トレーニング中に効率的に使用される。 本手法は, 実装が簡単で, モデルに依存しない, エンドツーエンドのトレーニングが可能である。 その結果,LPF(1)は様々なVQAモデルに対して有意な改善をもたらし,(2)バイアスに敏感なVQA-CP v2ベンチマーク上での競合性能を達成した。

Most existing Visual Question Answering (VQA) systems tend to overly rely on language bias and hence fail to reason from the visual clue. To address this issue, we propose a novel Language-Prior Feedback (LPF) objective function, to re-balance the proportion of each answer's loss value in the total VQA loss. The LPF firstly calculates a modulating factor to determine the language bias using a question-only branch. Then, the LPF assigns a self-adaptive weight to each training sample in the training process. With this reweighting mechanism, the LPF ensures that the total VQA loss can be reshaped to a more balanced form. By this means, the samples that require certain visual information to predict will be efficiently used during training. Our method is simple to implement, model-agnostic, and end-to-end trainable. We conduct extensive experiments and the results show that the LPF (1) brings a significant improvement over various VQA models, (2) achieves competitive performance on the bias-sensitive VQA-CP v2 benchmark.
翻訳日:2021-06-01 17:47:46 公開日:2021-05-29
# 非訓練ニューラルネットワークを用いた光音響ctのための圧縮センシング

Compressed Sensing for Photoacoustic Computed Tomography Using an Untrained Neural Network ( http://arxiv.org/abs/2105.14255v1 )

ライセンス: Link先を確認
Hengrong Lan, Juze Zhang, Changchun Yang, and Fei Gao(参考訳) photoacoustic (pa) ct (pact) は様々な臨床応用において大きな可能性を示している。 多くの測定結果が高品質な画像を得る前提であり、これは低撮像率や高システムコストを意味している。 測定されたチャンネルの数を減らしたり、検出されたビューを制限すると、アーティファクトやサイドローブが画像を汚染する可能性がある。 本稿では、未学習ニューラルネットワークを用いたPACTの圧縮センシング手法を提案し、測定されたチャネルの半分を減らし、十分な詳細を回復する。 この方法は、ニューラルネットワークを用いて、事前の深層画像に基づく追加学習を必要とせずに再構築する。 このモデルでは、勾配降下による少数の検出のみを用いて画像の再構成を行うことができる。 本手法は他の既存正規化と協調し,さらに品質を向上させることができる。 さらに,画像にモデルを簡単に収束させるために,事前の形状を導入する。 PA画像再構成における非トレーニングネットワークによる圧縮センシングの実現可能性を検証するとともに,本手法を全変動最小化を用いた従来手法と比較する。 実験の結果,提案手法は従来の圧縮センシング法と同等の正則化で32.72%(SSIM)を達成できた。 生のPAデータをわずかにサンプリングすることで、トランスデューサの数を劇的に削減し、PA画像の品質を大幅に向上させることができる。

Photoacoustic (PA) computed tomography (PACT) shows great potentials in various preclinical and clinical applications. A great number of measurements are the premise that obtains a high-quality image, which implies a low imaging rate or a high system cost. The artifacts or sidelobes could pollute the image if we decrease the number of measured channels or limit the detected view. In this paper, a novel compressed sensing method for PACT using an untrained neural network is proposed, which decreases half number of the measured channels and recoveries enough details. This method uses a neural network to reconstruct without the requirement for any additional learning based on the deep image prior. The model can reconstruct the image only using a few detections with gradient descent. Our method can cooperate with other existing regularization, and further improve the quality. In addition, we introduce a shape prior to easily converge the model to the image. We verify the feasibility of untrained network based compressed sensing in PA image reconstruction, and compare this method with a conventional method using total variation minimization. The experimental results show that our proposed method outperforms 32.72% (SSIM) with the traditional compressed sensing method in the same regularization. It could dramatically reduce the requirement for the number of transducers, by sparsely sampling the raw PA data, and improve the quality of PA image significantly.
翻訳日:2021-06-01 17:46:42 公開日:2021-05-29
# Intentional Adversarial Perturbationによるディープニューラルネットワークのバックドア検出

Detecting Backdoor in Deep Neural Networks via Intentional Adversarial Perturbations ( http://arxiv.org/abs/2105.14259v1 )

ライセンス: Link先を確認
Mingfu Xue, Yinghao Wu, Zhiyu Wu, Jian Wang, Yushu Zhang, Weiqiang Liu(参考訳) 近年の研究では、深層学習モデルは、バックドアインスタンスが到着すると、モデルに埋め込まれたバックドアがトリガーされるバックドア攻撃の影響を受けやすいことが示されている。 本稿では,逆例に基づく新しいバックドア検出手法を提案する。 提案手法は,2つのシナリオで適用可能なトリガ(トレーニングステージにおけるトレーニングセットのサニタイズと推論ステージにおけるバックドアインスタンスの検出)を含むかを検出するために,意図的な逆向きの摂動を利用する。 具体的には、信頼できない画像が与えられた場合、その入力画像に逆摂動を意図的に付加し、摂動画像上のモデルの予測が不動画像と一致した場合、入力画像はバックドアのインスタンスと見なされる。 提案手法では,計算資源の不足と画像の視覚的品質の維持が要求される。 実験の結果, 提案手法により, バックドア攻撃の成功率は99.47%, 99.77%, 97.89%から0.37%, 0.24%, 0.09%に低下した。 さらに, 提案手法は, 付加摂動が非常に小さいため, 画像の視覚的品質を維持する。 さらに,異なる設定(トリガー透過性,トリガーサイズ,トリガーパターン)のアタックに対して,提案手法の誤受率は1.2%,0.3%,0.04%のfashion-mnist,cifar- 10,gtsrbデータセットにおいて低く,異なるアタック設定でバックドアアタックに対して高い防御性能が得られることを示す。

Recent researches show that deep learning model is susceptible to backdoor attacks where the backdoor embedded in the model will be triggered when a backdoor instance arrives. In this paper, a novel backdoor detection method based on adversarial examples is proposed. The proposed method leverages intentional adversarial perturbations to detect whether the image contains a trigger, which can be applied in two scenarios (sanitize the training set in training stage and detect the backdoor instances in inference stage). Specifically, given an untrusted image, the adversarial perturbation is added to the input image intentionally, if the prediction of model on the perturbed image is consistent with that on the unperturbed image, the input image will be considered as a backdoor instance. The proposed adversarial perturbation based method requires low computational resources and maintains the visual quality of the images. Experimental results show that, the proposed defense method reduces the backdoor attack success rates from 99.47%, 99.77% and 97.89% to 0.37%, 0.24% and 0.09% on Fashion-MNIST, CIFAR-10 and GTSRB datasets, respectively. Besides, the proposed method maintains the visual quality of the image as the added perturbation is very small. In addition, for attacks under different settings (trigger transparency, trigger size and trigger pattern), the false acceptance rates of the proposed method are as low as 1.2%, 0.3% and 0.04% on Fashion-MNIST, CIFAR-10 and GTSRB datasets, respectively, which demonstrates that the proposed method can achieve high defense performance against backdoor attacks under different attack settings.
翻訳日:2021-06-01 17:46:22 公開日:2021-05-29
# ロバストなアスペクト感情分類のための位置バイアスの利用

Exploiting Position Bias for Robust Aspect Sentiment Classification ( http://arxiv.org/abs/2105.14210v1 )

ライセンス: Link先を確認
Fang Ma, Chen Zhang, Dawei Song(参考訳) アスペクト感情分類(ASC)は、文中の異なる側面に表される感情を決定することを目的としている。 最先端のASCモデルは目覚ましい性能を達成したが、最近は堅牢性の問題に悩まされている。 特に2つの一般的なシナリオでは、テストデータとトレーニングデータのドメインが異なる場合(ドメイン外のシナリオ)、あるいはテストデータが反対に乱れてしまう場合(逆シナリオ)、ASCモデルは、さまざまな側面を真に記述する無関係な単語や意見表現を無視する。 この課題に取り組むために,本論文では,位置バイアス(つまり,関係する側面に近い単語の方が重要度が高い)が,誤ったアプローチの可能性を減らすことによって,より堅牢なascモデルを構築する上で重要であると仮定する。 そこで本研究では,既存のモデルに柔軟に注入可能な位置バイアス,すなわち位置バイアス量と位置バイアス降下率の2つのメカニズムを提案する。 ドメイン外のデータセットと敵対的なデータセットで行った実験により、提案手法は現在のモデルの堅牢性と有効性を大幅に改善することを示した。

Aspect sentiment classification (ASC) aims at determining sentiments expressed towards different aspects in a sentence. While state-of-the-art ASC models have achieved remarkable performance, they are recently shown to suffer from the issue of robustness. Particularly in two common scenarios: when domains of test and training data are different (out-of-domain scenario) or test data is adversarially perturbed (adversarial scenario), ASC models may attend to irrelevant words and neglect opinion expressions that truly describe diverse aspects. To tackle the challenge, in this paper, we hypothesize that position bias (i.e., the words closer to a concerning aspect would carry a higher degree of importance) is crucial for building more robust ASC models by reducing the probability of mis-attending. Accordingly, we propose two mechanisms for capturing position bias, namely position-biased weight and position-biased dropout, which can be flexibly injected into existing models to enhance representations for classification. Experiments conducted on out-of-domain and adversarial datasets demonstrate that our proposed approaches largely improve the robustness and effectiveness of current models.
翻訳日:2021-06-01 17:45:10 公開日:2021-05-29
# 手続き型サイバーセキュリティテキストからのフローグラフの構築

Constructing Flow Graphs from Procedural Cybersecurity Texts ( http://arxiv.org/abs/2105.14357v1 )

ライセンス: Link先を確認
Kuntal Kumar Pal, Kazuaki Kashihara, Pratyay Banerjee, Swaroop Mishra, Ruoyu Wang, Chitta Baral(参考訳) 自然言語で書かれた手続きテキストに従うことは困難である。 関連する情報を識別するためにテキスト全体を読み、タスクを完了するための命令フローを識別する必要があります。 このようなテキストが構造化されている場合、命令フローを視覚化したり、特定のステップを推論したり、初心者エージェントが目標を達成するのを助ける自動化システムを構築することも簡単にできます。 しかし, この構造回復作業は, テキストの性質が多様であるため課題である。 本稿では,このようなテキストから関連情報を識別し,文間の情報フローを生成することを提案する。 我々はサイバーセキュリティドメイン(3154文書)に大規模な注釈付き手続きテキストデータセット(CTFW)を構築した。 このデータセットには、ソフトウェア脆弱性分析経験に関する貴重な説明が含まれている。 複数の設定でLM-GNNモデルを用いたCTFW実験を行った。 この課題と手法の両方の汎用性を示すために,サイバーセキュリティとは大きく異なる2つのドメイン(メンテナンスマニュアルと調理)の手続きテキストを実験した。 実験により, BERT文埋め込みを用いたグラフ畳み込みネットワークは, BERTを3つの領域すべてで上回っていることがわかった。

Following procedural texts written in natural languages is challenging. We must read the whole text to identify the relevant information or identify the instruction flows to complete a task, which is prone to failures. If such texts are structured, we can readily visualize instruction-flows, reason or infer a particular step, or even build automated systems to help novice agents achieve a goal. However, this structure recovery task is a challenge because of such texts' diverse nature. This paper proposes to identify relevant information from such texts and generate information flows between sentences. We built a large annotated procedural text dataset (CTFW) in the cybersecurity domain (3154 documents). This dataset contains valuable instructions regarding software vulnerability analysis experiences. We performed extensive experiments on CTFW with our LM-GNN model variants in multiple settings. To show the generalizability of both this task and our method, we also experimented with procedural texts from two other domains (Maintenance Manual and Cooking), which are substantially different from cybersecurity. Our experiments show that Graph Convolution Network with BERT sentence embeddings outperforms BERT in all three domains
翻訳日:2021-06-01 17:42:19 公開日:2021-05-29
# フェアクラスタリングのための確率的交互バランス$k$-meansアルゴリズム

A Stochastic Alternating Balance $k$-Means Algorithm for Fair Clustering ( http://arxiv.org/abs/2105.14172v1 )

ライセンス: Link先を確認
Suyun Liu, Luis Nunes Vicente(参考訳) ローン申請や広告レコメンデーションなどの人間中心の意思決定システムへのデータクラスタリングの適用においては、クラスタリングの結果は異なる人口集団の人々に対して差別され、不公平につながる可能性がある。 クラスター化のコスト(クラスタ中心までの距離)と、クラスタ全体のすべての人口集団群のバランス表現との間に自然な衝突が発生し、非凸かつ非滑らかな二目的最適化問題に繋がる。 これら2つの競合する目標間の完全なトレードオフを決定するために、従来のミニバッチである$k$-meansの更新とグループスワップの更新を交互に行う、新しい確率交互バランスフェア$k$-means (SAfairKM) アルゴリズムを設計する。 k$-meansの更新数とswapの更新数は、基本的に各目的関数の最適化にかかる重みをパラメータ化する。 我々の数値実験により,SAfairKMアルゴリズムは,合成データと実データの両方をベースとして,より広範かつ高品質なParetoフロントを構築する上で,堅牢かつ計算効率が高いことが示された。 さらに,提案アルゴリズムは, 対物的二目的勾配勾配勾配(SA2GD)アルゴリズムと, 対物的二目的勾配勾配勾配(SA2GD)アルゴリズムを併用し, 対物的二目的勾配勾配勾配勾配(SA2GD)と対物的二目的勾配勾配勾配(SA2GD)を対応づける手法を提案する。 半線型収束率$\mathcal{O}(1/T)$は、各関数のステップ数や更新数によってパラメータ化された2つの関数の重み付き和の定常点を決定するために強い凸性の下で確立される。

In the application of data clustering to human-centric decision-making systems, such as loan applications and advertisement recommendations, the clustering outcome might discriminate against people across different demographic groups, leading to unfairness. A natural conflict occurs between the cost of clustering (in terms of distance to cluster centers) and the balance representation of all demographic groups across the clusters, leading to a bi-objective optimization problem that is nonconvex and nonsmooth. To determine the complete trade-off between these two competing goals, we design a novel stochastic alternating balance fair $k$-means (SAfairKM) algorithm, which consists of alternating classical mini-batch $k$-means updates and group swap updates. The number of $k$-means updates and the number of swap updates essentially parameterize the weight put on optimizing each objective function. Our numerical experiments show that the proposed SAfairKM algorithm is robust and computationally efficient in constructing well-spread and high-quality Pareto fronts both on synthetic and real datasets. Moreover, we propose a novel companion algorithm, the stochastic alternating bi-objective gradient descent (SA2GD) algorithm, which can handle a smooth version of the considered bi-objective fair $k$-means problem, more amenable for analysis. A sublinear convergence rate of $\mathcal{O}(1/T)$ is established under strong convexity for the determination of a stationary point of a weighted sum of the two functions parameterized by the number of steps or updates on each function.
翻訳日:2021-06-01 17:41:43 公開日:2021-05-29
# 変分オートエンコーダのインスタンスベース解釈可能性の理解

Understanding Instance-based Interpretability of Variational Auto-Encoders ( http://arxiv.org/abs/2105.14203v1 )

ライセンス: Link先を確認
Zhifeng Kong, Kamalika Chaudhuri(参考訳) ブラックボックスニューラルネットワークの予測方法を説明する上で,教師あり学習手法として,インスタンスベースの解釈手法が広く研究されている。 しかし、インスタンスベースの解釈は教師なし学習の文脈では未理解のままである。 本稿では,変分自動エンコーダ(VAE)と呼ばれる深部生成モデルに対して,一般的なインスタンスベースの解釈手法である影響関数[20]について検討する。 本研究では,この環境における影響関数に応答する対実的質問を形式的に定式化し,理論解析を通じて,従来の教師なし学習方法に対するトレーニングサンプルの影響を明らかにする。 次に、Pruthiなどに基づく計算効率が高く理論的に健全な解であるVAE-TracInを紹介する。 [28]vaes用。 最後に,vae-トラシンを数種類の実世界データセット上で定量的・質的分析により評価する。

Instance-based interpretation methods have been widely studied for supervised learning methods as they help explain how black box neural networks predict. However, instance-based interpretations remain ill-understood in the context of unsupervised learning. In this paper, we investigate influence functions [20], a popular instance-based interpretation method, for a class of deep generative models called variational auto-encoders (VAE). We formally frame the counter-factual question answered by influence functions in this setting, and through theoretical analysis, examine what they reveal about the impact of training samples on classical unsupervised learning methods. We then introduce VAE-TracIn, a computationally efficient and theoretically sound solution based on Pruthi et al. [28], for VAEs. Finally, we evaluate VAE-TracIn on several real world datasets with extensive quantitative and qualitative analysis.
翻訳日:2021-06-01 17:41:13 公開日:2021-05-29
# deconvolutional density network: free-form conditional density estimation

Deconvolutional Density Network: Free-Form Conditional Density Estimation ( http://arxiv.org/abs/2105.14367v1 )

ライセンス: Link先を確認
Bing Chen, Mazharul Islam, Lin Wang, Jisuo Gao and Jeff Orchard(参考訳) 条件密度推定は、いくつかの入力で条件付けられた事象の確率を推定するタスクである。 ニューラルネットワークを使用して、出力分布を明示的に計算することができる。 このようなタスクでは、ニューラルネットワークの出力を使って、連続したドメイン分布を表現する方法はたくさんありますが、それぞれが正確にレンダリングできるディストリビューションには独自の制限があります。 関数の族が制限的すぎる場合、多くのデータセットには適さない。 本稿では,自由形式分布のデコンボリューションを用いたモデリングの利点を示す。 柔軟性には利点がありますが、デコンボリューション層が提供するトポロジカルな滑らかさにもメリットがあります。 我々は,本手法を他の多くの密度推定手法と比較し,非畳み込み密度ネットワーク(DDN)が制約的パラメトリックモデルにコミットすることなく,多くの人工的および実タスクにおいて競合する手法より優れていることを示す。

Conditional density estimation is the task of estimating the probability of an event, conditioned on some inputs. A neural network can be used to compute the output distribution explicitly. For such a task, there are many ways to represent a continuous-domain distribution using the output of a neural network, but each comes with its own limitations for what distributions it can accurately render. If the family of functions is too restrictive, it will not be appropriate for many datasets. In this paper, we demonstrate the benefits of modeling free-form distributions using deconvolution. It has the advantage of being flexible, but also takes advantage of the topological smoothness offered by the deconvolution layers. We compare our method to a number of other density-estimation approaches, and show that our Deconvolutional Density Network (DDN) outperforms the competing methods on many artificial and real tasks, without committing to a restrictive parametric model.
翻訳日:2021-06-01 17:40:59 公開日:2021-05-29
# AIモデルと酵素実験を統合する新しいフレームワークはSARS-CoV-2 3CLプロテアーゼインヒビターと活性ベースプローブの同定を促進する

A Novel Framework Integrating AI Model and Enzymological Experiments Promotes Identification of SARS-CoV-2 3CL Protease Inhibitors and Activity-based Probe ( http://arxiv.org/abs/2105.14224v1 )

ライセンス: Link先を確認
Fan Hu, Lei Wang, Yishen Hu, Dongqi Wang, Weijie Wang, Jianbing Jiang, Nan Li and Peng Yin(参考訳) タンパク質とリガンドの相互作用の同定は生化学的研究と創薬において重要な役割を果たす。 近年、深層学習は新薬の発見に大きな可能性を示しているが、深層学習と実験的なアプローチの間には差がある。 本稿では,SARS-CoV-2の3CLプロテアーゼに対する阻害剤を同定するため,AIモデルと酵素実験を統合した新しいフレームワークであるAIMEEを提案する。 生物活性化学ライブラリーを用いて2ラウンドの試験を行い,29.41%のヒット率を持つ新規阻害剤を6つ同定し,その内4つはIC50値が3.mu}M未満であること,さらに,AIMEEにおける中心モデルの解釈可能性について検討し,深層学習抽出特徴を化学特性のドメイン知識にマッピングした。 この知識に基づき、市販化合物が選択され、3clproの活性ベースのプローブであることが証明された。 この研究は、深層学習モデルとインテリジェントな反復のための生化学実験を組み合わせる大きな可能性を強調し、薬物発見の境界を広げる。

The identification of protein-ligand interaction plays a key role in biochemical research and drug discovery. Although deep learning has recently shown great promise in discovering new drugs, there remains a gap between deep learning-based and experimental approaches. Here we propose a novel framework, named AIMEE, integrating AI Model and Enzymology Experiments, to identify inhibitors against 3CL protease of SARS-CoV-2, which has taken a significant toll on people across the globe. From a bioactive chemical library, we have conducted two rounds of experiments and identified six novel inhibitors with a hit rate of 29.41%, and four of them showed an IC50 value less than 3 {\mu}M. Moreover, we explored the interpretability of the central model in AIMEE, mapping the deep learning extracted features to domain knowledge of chemical properties. Based on this knowledge, a commercially available compound was selected and proven to be an activity-based probe of 3CLpro. This work highlights the great potential of combining deep learning models and biochemical experiments for intelligent iteration and expanding the boundaries of drug discovery.
翻訳日:2021-06-01 17:34:19 公開日:2021-05-29
# 部分線形時間における形状制約分布からの拒絶サンプリング

Rejection sampling from shape-constrained distributions in sublinear time ( http://arxiv.org/abs/2105.14166v1 )

ライセンス: Link先を確認
Sinho Chewi, Patrik Gerber, Chen Lu, Thibaut Le Gouic, Philippe Rigollet(参考訳) 対象分布から有限アルファベット上の正規化までの正確なサンプルを生成するタスクを考察する。 このタスクの古典的なアルゴリズムは拒絶サンプリングであり、何十年にもわたって実際に使われてきたが、その基本的な限界についてはほとんど研究されていない。 本研究では,離散分布の様々なクラスを対象としたミニマックスフレームワークにおいて,リジェクションサンプリングのクエリ複雑性について検討する。 本研究は,アルファベットサイズに比例して複雑度が増加するサンプリングアルゴリズムを提案する。 敵の包帯に適用すると、Exp3アルゴリズムのわずかな変更により、各項目毎の複雑性が$\mathcal O(K)$から$\mathcal O(\log^2K)$に減少し、$K$が腕の数であることを示す。

We consider the task of generating exact samples from a target distribution, known up to normalization, over a finite alphabet. The classical algorithm for this task is rejection sampling, and although it has been used in practice for decades, there is surprisingly little study of its fundamental limitations. In this work, we study the query complexity of rejection sampling in a minimax framework for various classes of discrete distributions. Our results provide new algorithms for sampling whose complexity scales sublinearly with the alphabet size. When applied to adversarial bandits, we show that a slight modification of the Exp3 algorithm reduces the per-iteration complexity from $\mathcal O(K)$ to $\mathcal O(\log^2 K)$, where $K$ is the number of arms.
翻訳日:2021-06-01 17:30:44 公開日:2021-05-29
# グラフフィードバックによるバンディットの理解

Understanding Bandits with Graph Feedback ( http://arxiv.org/abs/2105.14260v1 )

ライセンス: Link先を確認
Houshuang Chen (1), Zengfeng Huang (2), Shuai Li (1) and Chihao Zhang (1) ((1) Shanghai Jiao Tong University, (2) Fudan University)(参考訳) グラフフィードバックに関するバンディット問題は[Mannor and Shamir, NeurIPS 2011]で提案され、有向グラフ$G=(V,E)$でモデル化されている。 基本的な問題は、グラフの構造がmin-maxの後悔にどう影響するかである。 そこで本稿では, 差分弱支配数 $\delta^*$, $k$-packing independent number の概念をそれぞれ提案する。 2つの概念は、弱支配集合の線型プログラムと、その双対 -- 分数頂点パッキング集合とをそれぞれ整合させることにより、本質的に連結であることを示す。 この関係に基づいて、強い双対性定理(英: strong duality theorem)を用いて、一般的な後悔の上限である$o\left(\left( \delta^*\log |v|\right)^{\frac{1}{3}}t^{\frac{2}{3}}\right)$ と下限の$\omega\left(\left(\ delta^*/\alpha\right)^{\frac{1}{3}}t^{\frac{2}{3}}\right)$ を証明する。 したがって、我々の境界は、有界次数を持つ木やグラフを含む頂点パッキング問題に対する有界積分性ギャップを持つグラフ上の $\left(\log |v|\right)^{\frac{1}{3}}$ factor に厳密である。 さらに、グラフのいくつかの特別な族に対して、$\left(\log |v|\right)^{\frac{1}{3}}$因子を取り除き、最適な後悔を確立することができることを示す。

The bandit problem with graph feedback, proposed in [Mannor and Shamir, NeurIPS 2011], is modeled by a directed graph $G=(V,E)$ where $V$ is the collection of bandit arms, and once an arm is triggered, all its incident arms are observed. A fundamental question is how the structure of the graph affects the min-max regret. We propose the notions of the fractional weak domination number $\delta^*$ and the $k$-packing independence number capturing upper bound and lower bound for the regret respectively. We show that the two notions are inherently connected via aligning them with the linear program of the weakly dominating set and its dual -- the fractional vertex packing set respectively. Based on this connection, we utilize the strong duality theorem to prove a general regret upper bound $O\left(\left( \delta^*\log |V|\right)^{\frac{1}{3}}T^{\frac{2}{3}}\right)$ and a lower bound $\Omega\left(\left(\ delta^*/\alpha\right)^{\frac{1}{3}}T^{\frac{2}{3}}\right)$ where $\alpha$ is the integrality gap of the dual linear program. Therefore, our bounds are tight up to a $\left(\log |V|\right)^{\frac{1}{3}}$ factor on graphs with bounded integrality gap for the vertex packing problem including trees and graphs with bounded degree. Moreover, we show that for several special families of graphs, we can get rid of the $\left(\log |V|\right)^{\frac{1}{3}}$ factor and establish optimal regret.
翻訳日:2021-06-01 17:30:28 公開日:2021-05-29
# 高次元一般化線形モデルによる伝達学習

Transfer Learning under High-dimensional Generalized Linear Models ( http://arxiv.org/abs/2105.14328v1 )

ライセンス: Link先を確認
Ye Tian and Yang Feng(参考訳) 本研究では,高次元一般化線形モデル(GLM)に基づく伝達学習問題について検討し,有用な情報源データから情報を借りることにより,対象データへの適合性を改善することを目的とした。 どのソースを転送するかを考えると、オラクルアルゴリズムを提案し、その$\ell_2$-estimationエラー境界を導出する。 理論解析により,ターゲットとソースが十分に近い条件下では,ターゲットデータのみを用いて,従来のペナルティ化推定器よりも推定誤差境界が向上する可能性が示唆された。 転送するソースが分からない場合は、情報ソースを検出するためにアルゴリズムフリーな転送可能なソース検出手法が導入される。 検出一貫性は高次元GLM転送学習環境下で証明される。 広範なシミュレーションと実データ実験により,アルゴリズムの有効性が検証された。

In this work, we study the transfer learning problem under high-dimensional generalized linear models (GLMs), which aim to improve the fit on target data by borrowing information from useful source data. Given which sources to transfer, we propose an oracle algorithm and derive its $\ell_2$-estimation error bounds. The theoretical analysis shows that under certain conditions, when the target and source are sufficiently close to each other, the estimation error bound could be improved over that of the classical penalized estimator using only target data. When we don't know which sources to transfer, an algorithm-free transferable source detection approach is introduced to detect informative sources. The detection consistency is proved under the high-dimensional GLM transfer learning setting. Extensive simulations and a real-data experiment verify the effectiveness of our algorithms.
翻訳日:2021-06-01 17:29:50 公開日:2021-05-29
# 深層学習技術を用いた神経画像モダリティにおけるてんかん発作検出の応用:方法,課題,今後の課題

Applications of Epileptic Seizures Detection in Neuroimaging Modalities Using Deep Learning Techniques: Methods, Challenges, and Future Works ( http://arxiv.org/abs/2105.14278v1 )

ライセンス: Link先を確認
Afshin Shoeibi, Navid Ghassemi, Marjane Khodatars, Mahboobeh Jafari, Parisa Moridian, Roohallah Alizadehsani, Ali Khadem, Yinan Kong, Assef Zare, Juan Manuel Gorriz, Javier Ram\'irez, Maryam Panahiazar, Abbas Khosravi, Saeid Nahavandi(参考訳) てんかん発作は、世界中の多くの人々に影響を及ぼす神経疾患の一種である。 専門医や神経学者は、様々な種類のてんかん発作を診断するために、構造的および機能的な神経画像モダリティを利用する。 神経画像のモダリティは、専門医が脳組織とその変化を分析するのに大いに役立つ。 てんかん発作の正確かつ迅速な診断を早める1つの方法は、人工知能(AI)と機能的および構造的ニューロイメージングモダリティに基づくコンピュータ支援診断システム(CADS)を採用することである。 AIは様々な分野を包含しており、その分野の1つがディープラーニング(DL)である。 dlアルゴリズムの登場以前は、機能抽出は従来の機械学習手法のすべてにおいて不可欠な部分であったが、手作り機能はこれらのモデルのパフォーマンスをシステム設計者の知識に制限していた。 DL法は特徴抽出と分類プロセスの自動化によってこの問題を完全に解決し、てんかん発作の診断などの医学分野におけるこれらの手法の適用により、顕著な改善がなされた。 本報告では, 各種神経画像からのてんかん発作の診断に用いたDL法の種類について概説する。 さらに, てんかん発作診断におけるリハビリテーションシステムとクラウドコンピューティングについて, 様々な手法を用いて正確に検討した。

Epileptic seizures are a type of neurological disorder that affect many people worldwide. Specialist physicians and neurologists take advantage of structural and functional neuroimaging modalities to diagnose various types of epileptic seizures. Neuroimaging modalities assist specialist physicians considerably in analyzing brain tissue and the changes made in it. One method to accelerate the accurate and fast diagnosis of epileptic seizures is to employ computer aided diagnosis systems (CADS) based on artificial intelligence (AI) and functional and structural neuroimaging modalities. AI encompasses a variety of areas, and one of its branches is deep learning (DL). Not long ago, and before the rise of DL algorithms, feature extraction was an essential part of every conventional machine learning method, yet handcrafting features limit these models' performances to the knowledge of system designers. DL methods resolved this issue entirely by automating the feature extraction and classification process; applications of these methods in many fields of medicine, such as the diagnosis of epileptic seizures, have made notable improvements. In this paper, a comprehensive overview of the types of DL methods exploited to diagnose epileptic seizures from various neuroimaging modalities has been studied. Additionally, rehabilitation systems and cloud computing in epileptic seizures diagnosis applications have been exactly investigated using various modalities.
翻訳日:2021-06-01 17:28:07 公開日:2021-05-29
# MultiWOZにおけるアノテーションの不整合とエンティティバイアス

Annotation Inconsistency and Entity Bias in MultiWOZ ( http://arxiv.org/abs/2105.14150v1 )

ライセンス: Link先を確認
Kun Qian, Ahmad Beirami, Zhouhan Lin, Ankita De, Alborz Geramifard, Zhou Yu, Chinnadhurai Sankar(参考訳) MultiWOZは8つのドメインをカバーする10K以上の注釈付きダイアログを含む、最も人気のあるマルチドメインタスク指向のダイアログデータセットの1つである。 対話状態追跡(dst)、自然言語生成(nlg)、エンドツーエンド(e2e)ダイアログモデリングなど、さまざまなダイアログタスクのベンチマークとして広く受け入れられている。 本研究では,データセット内のダイアログ状態アノテーションの不整合で見落とされ,スロットタイプが類似のダイアログ間で不整合にタグ付けされ,DSTモデリングの混乱につながる問題を特定する。 本稿では,70パーセントのダイアログに存在しているこの問題を自動修正する手法を提案する。 さらに、データセットに重大なエンティティバイアスがあることに気付きます(例えば、列車ドメインの目的地都市の50%に"cambridge"が表示されます)。 エンティティのバイアスは、生成モデルにおける名前付きエンティティの記憶につながる可能性があり、テストセットが同じようなエンティティのバイアスに悩まされるため、気づかないかもしれない。 すべてのエンティティが見えないエンティティに置き換えられた新しいテストセットをリリースします。 最後に,これらの修正版データに対して,最先端dstベースラインのジョイント目標精度(jga)をベンチマークした。 実験の結果,アノテーションの不整合補正により,jgaは7~10%改善した。 一方,未認識のエンティティを持つ新しいテストセットでモデルを評価すると,jgaが29%減少するのを観察した。

MultiWOZ is one of the most popular multi-domain task-oriented dialog datasets, containing 10K+ annotated dialogs covering eight domains. It has been widely accepted as a benchmark for various dialog tasks, e.g., dialog state tracking (DST), natural language generation (NLG), and end-to-end (E2E) dialog modeling. In this work, we identify an overlooked issue with dialog state annotation inconsistencies in the dataset, where a slot type is tagged inconsistently across similar dialogs leading to confusion for DST modeling. We propose an automated correction for this issue, which is present in a whopping 70% of the dialogs. Additionally, we notice that there is significant entity bias in the dataset (e.g., "cambridge" appears in 50% of the destination cities in the train domain). The entity bias can potentially lead to named entity memorization in generative models, which may go unnoticed as the test set suffers from a similar entity bias as well. We release a new test set with all entities replaced with unseen entities. Finally, we benchmark joint goal accuracy (JGA) of the state-of-the-art DST baselines on these modified versions of the data. Our experiments show that the annotation inconsistency corrections lead to 7-10% improvement in JGA. On the other hand, we observe a 29% drop in JGA when models are evaluated on the new test set with unseen entities.
翻訳日:2021-06-01 17:24:47 公開日:2021-05-29
# アスペクトカテゴリ検出のためのマルチラベル・マイノショット学習

Multi-Label Few-Shot Learning for Aspect Category Detection ( http://arxiv.org/abs/2105.14174v1 )

ライセンス: Link先を確認
Mengting Hu, Shiwan Zhao, Honglei Guo, Chao Xue, Hang Gao, Tiegang Gao, Renhong Cheng, Zhong Su(参考訳) 感情分析におけるアスペクトカテゴリー検出(ACD)は、文中のアスペクトカテゴリを特定することを目的としている。 本稿では,数発の学習シナリオでACDを定式化する。 しかし、既存の数発の学習アプローチは主にシングルラベルの予測に焦点を当てている。 これらの方法は、文が複数のアスペクトカテゴリを含む可能性があるため、ACDタスクではうまく機能しない。 そこで本研究では,プロトタイプネットワークに基づく複数ラベルの複数ショット学習手法を提案する。 ノイズを軽減するために,2つの効果的な注意機構を設計する。 サポートセットの注意は、無関係な側面を取り除くことでより良いプロトタイプを抽出することである。 クエリセットの注意は、各クエリインスタンスの複数のプロトタイプ固有の表現を計算し、対応するプロトタイプとの正確な距離を計算するために使用される。 マルチラベル推論を実現するために、ポリシーネットワークによりインスタンスごとの動的しきい値をさらに学習する。 3つのデータセットの大規模な実験結果から,提案手法が強いベースラインを著しく上回ることを示す。

Aspect category detection (ACD) in sentiment analysis aims to identify the aspect categories mentioned in a sentence. In this paper, we formulate ACD in the few-shot learning scenario. However, existing few-shot learning approaches mainly focus on single-label predictions. These methods can not work well for the ACD task since a sentence may contain multiple aspect categories. Therefore, we propose a multi-label few-shot learning method based on the prototypical network. To alleviate the noise, we design two effective attention mechanisms. The support-set attention aims to extract better prototypes by removing irrelevant aspects. The query-set attention computes multiple prototype-specific representations for each query instance, which are then used to compute accurate distances with the corresponding prototypes. To achieve multi-label inference, we further learn a dynamic threshold per instance by a policy network. Extensive experimental results on three datasets demonstrate that the proposed method significantly outperforms strong baselines.
翻訳日:2021-06-01 17:24:25 公開日:2021-05-29
# GANライクなシーケンスラベリングとしての文法的誤り訂正

Grammatical Error Correction as GAN-like Sequence Labeling ( http://arxiv.org/abs/2105.14209v1 )

ライセンス: Link先を確認
Kevin Parnow, Zuchao Li, and Hai Zhao(参考訳) 文法的誤り訂正(GEC)では、シーケンスラベリングモデルはシーケンス・ツー・シーケンスモデルと比較して高速な推論が楽しめるが、シーケンスラベリングGECモデルでは、文が複数ラウンドの修正のためにモデルに渡され、各ラウンドで徐々に少ないエラーでモデルを公開するため、シーケンスラベリングGECモデルは反復的なプロセスである。 伝統的なGECモデルは、一定の誤り率の文から学習する。 これを反復補正プロセスと結合すると、最終的なパフォーマンスに影響を与えるトレーニングと推論のミスマッチが発生する。 このミスマッチに対処するため,Gumbel-Softmaxサンプリングをジェネレータとする文法的誤り検出器と文法的誤りラベル器からなるGAN型シーケンスラベリングモデルを提案する。 実際の誤差分布からサンプリングすることで、従来の合成GCCの誤差よりも誤差がより本物になり、上記のミスマッチを緩和し、より良いトレーニングを可能にします。 いくつかの評価ベンチマークの結果から,提案手法が有効であることを示し,従来のベースラインを改善した。

In Grammatical Error Correction (GEC), sequence labeling models enjoy fast inference compared to sequence-to-sequence models; however, inference in sequence labeling GEC models is an iterative process, as sentences are passed to the model for multiple rounds of correction, which exposes the model to sentences with progressively fewer errors at each round. Traditional GEC models learn from sentences with fixed error rates. Coupling this with the iterative correction process causes a mismatch between training and inference that affects final performance. In order to address this mismatch, we propose a GAN-like sequence labeling model, which consists of a grammatical error detector as a discriminator and a grammatical error labeler with Gumbel-Softmax sampling as a generator. By sampling from real error distributions, our errors are more genuine compared to traditional synthesized GEC errors, thus alleviating the aforementioned mismatch and allowing for better training. Our results on several evaluation benchmarks demonstrate that our proposed approach is effective and improves the previous state-of-the-art baseline.
翻訳日:2021-06-01 17:24:12 公開日:2021-05-29
# CommitBERT: 事前学習型プログラミング言語モデルを用いたコミットメッセージ生成

CommitBERT: Commit Message Generation Using Pre-Trained Programming Language Model ( http://arxiv.org/abs/2105.14242v1 )

ライセンス: Link先を確認
Tae-Hwan Jung(参考訳) コミットメッセージは、自然言語でソースコードの変更を要約するドキュメントである。 よいコミットメッセージは、ソースコードの変更を明確に示すため、開発者間のコラボレーションを促進する。 したがって、我々の仕事はコミットメッセージを自動的に書き込むモデルを開発することです。 この目的のために、コード修正とコミットメッセージからなる345Kデータセットを6つのプログラミング言語(Python、PHP、Go、Java、JavaScript、Ruby)でリリースしています。 ニューラルマシン翻訳(NMT)モデルと同様に、我々のデータセットを使用して、コード修正をエンコーダ入力に、コミットメッセージをデコーダ入力に供給し、生成したコミットメッセージの結果をBLEU-4で測定する。 また,(1)入力を前処理してエンコーダ入力にコード修正を送付する方法という,コミットメッセージ生成結果を改善するための2つのトレーニング手法を提案する。 2)プログラム言語(PL)と自然言語(NL)の文脈表現のギャップを減らすために,コード領域に適した初期重みを利用する手法。 トレーニングコード、データセット、事前トレーニングされたウェイトはhttps://github.com/g raykode/commit-autos uggestionsで利用可能だ。

Commit message is a document that summarizes source code changes in natural language. A good commit message clearly shows the source code changes, so this enhances collaboration between developers. Therefore, our work is to develop a model that automatically writes the commit message. To this end, we release 345K datasets consisting of code modification and commit messages in six programming languages (Python, PHP, Go, Java, JavaScript, and Ruby). Similar to the neural machine translation (NMT) model, using our dataset, we feed the code modification to the encoder input and the commit message to the decoder input and measure the result of the generated commit message with BLEU-4. Also, we propose the following two training methods to improve the result of generating the commit message: (1) A method of preprocessing the input to feed the code modification to the encoder input. (2) A method that uses an initial weight suitable for the code domain to reduce the gap in contextual representation between programming language (PL) and natural language (NL). Training code, dataset, and pre-trained weights are available at https://github.com/g raykode/commit-autos uggestions
翻訳日:2021-06-01 17:23:51 公開日:2021-05-29
# オンライン性コンテンツ識別のための簡易投票機構

A Simple Voting Mechanism for Online Sexist Content Identification ( http://arxiv.org/abs/2105.14309v1 )

ライセンス: Link先を確認
Chao Feng(参考訳) 本稿では、英語とスペイン語のソーシャルメディアタスクにおける性差別検出に関するEXIST 2021 Challengeに参加するMiniTrueチームについて述べる。 本手法は,性差別的ラベル予測のための単純な投票機構と言語モデルを組み合わせる。 このため、3つのBERTベースのモデルと投票関数が使用される。 実験結果から, 投票機能を持つ最終モデルは, 4つのモデルの中で最高の結果を得たことが示され, 投票機構がシステムにさらなる利益をもたらすことが示唆された。 それにもかかわらず、我々のシステムはデータソースや言語に対して堅牢であることも観察している。

This paper presents the participation of the MiniTrue team in the EXIST 2021 Challenge on the sexism detection in social media task for English and Spanish. Our approach combines the language models with a simple voting mechanism for the sexist label prediction. For this, three BERT based models and a voting function are used. Experimental results show that our final model with the voting function has achieved the best results among our four models, which means that our voting mechanism brings an extra benefit to our system. Nevertheless, we also observe that our system is robust to data sources and languages.
翻訳日:2021-06-01 17:23:32 公開日:2021-05-29
# フレキシブルタイムライン要約のための自動タイムライン長選択

Automated Timeline Length Selection for Flexible Timeline Summarization ( http://arxiv.org/abs/2105.14201v1 )

ライセンス: Link先を確認
Xi Li, Qianren Mao, Hao Peng, Hongdong Zhu, Jianxin Li, Zheng Wang(参考訳) 長期にわたるイベントの要約を生成することで、タイムライン要約(TLS)は多くの情報検索タスクを支える。 成功したTLSは、カバーするキー日付(タイムラインの長さ)の適切なセットを特定する必要がある。 しかし、適切な長さがトピックから別のトピックに変化する可能性があるため、そうすることは難しい。 既存のTLSソリューションは、イベントに依存しない固定長または専門家が提供する設定に依存する。 どちらの戦略も現実のTLSシナリオには望まれない。 固定されたイベントに依存しない設定は、イベントの多様性とその開発を無視し、低品質のtlsにつながる可能性がある。 専門的な設定に依存することは、動的に変化するイベントを処理するためにスケーラブルでも持続可能でもない。 本稿では,TLSのタイムライン長を自動的に動的に決定するためのTLS手法を提案する。 我々は、機械学習コミュニティから確立された肘法を用いて、時系列内の最小日付を自動的に見つけ、簡潔で情報的な要約を生成する。 提案手法を英語と中国語の4つのTLSデータセットに適用し,従来の3つの手法と比較した。 実験結果から,本手法は最先端TLS法に比較して,より優れた要約を提供するが,専門家の関与なく実現可能であることがわかった。

By producing summaries for long-running events, timeline summarization (TLS) underpins many information retrieval tasks. Successful TLS requires identifying an appropriate set of key dates (the timeline length) to cover. However, doing so is challenging as the right length can change from one topic to another. Existing TLS solutions either rely on an event-agnostic fixed length or an expert-supplied setting. Neither of the strategies is desired for real-life TLS scenarios. A fixed, event-agnostic setting ignores the diversity of events and their development and hence can lead to low-quality TLS. Relying on expert-crafted settings is neither scalable nor sustainable for processing many dynamically changing events. This paper presents a better TLS approach for automatically and dynamically determining the TLS timeline length. We achieve this by employing the established elbow method from the machine learning community to automatically find the minimum number of dates within the time series to generate concise and informative summaries. We applied our approach to four TLS datasets of English and Chinese and compared them against three prior methods. Experimental results show that our approach delivers comparable or even better summaries over state-of-art TLS methods, but it achieves this without expert involvement.
翻訳日:2021-06-01 17:19:50 公開日:2021-05-29
# 計算実現の可能性をもつ法規の特定の種類を記述するための一般多義的枠組みを目指して

Towards a General Many-Sorted Framework for Describing Certain Kinds of Legal Statutes with a Potential Computational Realization ( http://arxiv.org/abs/2105.14212v1 )

ライセンス: Link先を確認
Danny A. J. Gomez-Ramirez, Egil Nordqvist(参考訳) 20世紀のスカンジナビアの法的理論的伝統を調べると、存在論的自然主義、論理経験主義、近代的理想主義的理論を抽出できる。 本稿では,現代数学論理学における「論理経験主義」の数学的構文図形を紹介する。 明示的な購入法(Sweden)を記述するための新しい形式的枠組みが徐々に開発され、その後提案される。 この新しいフレームワークは、多種多様な一階述語論理(MFOL)アプローチに基づいている。 具体的には,動けない財産の購入に関するスウェーデンの法律の中心的な法令の1つについて,具体的な統語訳を行う。 さらに,このような形式化の今後の発展が,財産移転に関する高度に複雑な法的問題を解決するための「共同創造的」な法的支援として使用できる人工エージェント(ソフトウェアなど)の構築に必要となる可能性についても論じる。

Examining a 20th-century Scandinavian legal theoretical tradition, we can extract an ontological naturalistic, a logical empiristic, and a modern idealistic rationale. We introduce the mathematical syntactic figure present in the `logical empiricism' in a contemporary mathematical logic. A new formal framework for describing explicit purchase statutes (Sweden) is gradually developed and subsequently proposed. This new framework is based on a many-sorted first-order logic (MFOL) approach, where the semantics are grounded in concrete `physical' objects and situations with a legal relevance. Specifically, we present a concrete formal syntactic translation of one of the central statutes of Swedish legislation for the purchase of immovable property. Additionally, we discuss the potential implications that a subsequent development of such formalisations would have for constructing artificial agents (e.g., software) that can be used as `co-creative' legal assistance for solving highly complex legal issues concerning the transfer of property, among others.
翻訳日:2021-06-01 17:19:33 公開日:2021-05-29
# FoveaTer:画像分類のためのFloveated Transformer

FoveaTer: Foveated Transformer for Image Classification ( http://arxiv.org/abs/2105.14173v1 )

ライセンス: Link先を確認
Aditya Jonnalagadda, William Wang, Miguel P. Eckstein(参考訳) 多くの動物やヒトは、様々な空間分解能で視野を処理し、周辺処理を用いて眼球運動を行い、焦点を向け、興味のある物体に関する高解像度情報を取得する。 このアーキテクチャは計算効率の良い高速シーン探索をもたらす。 近年の視覚の進歩により、トランスフォーマーは従来の畳み込み型コンピュータビジョンシステムに新しい代替手段をもたらした。 しかし、これらのモデルは視覚系の焦点特性や眼球運動と分類課題との相互作用を明示的にモデル化していない。 本稿では,視覚トランスフォーマーを用いて物体分類を行うために,プーリング領域とサッカディド運動を用いたフォベレーショントランスフォーメータモデルを提案する。 提案モデルでは,2乗プール領域を用いて画像特徴をプールし,バイオインスパイアされた葉状アーキテクチャを近似し,プールした特徴をトランスフォーマーネットワークへの入力として利用する。 変圧器が以前の固定から現在までの様々な場所に割り当てた注意に基づいて、以下の固定位置を決定する。 このモデルは、シーン探索を止めるために信頼しきい値を使用しており、より困難な画像に対して、より多くの固定/計算リソースを動的に割り当てることができる。 提案モデルと非フォブモデルを用いてアンサンブルモデルを構築し,22%の計算節約で非フォブモデルより1.36%低い精度を実現した。 最後に、我々のモデルが敵攻撃に対して頑健であることを示す。

Many animals and humans process the visual field with a varying spatial resolution (foveated vision) and use peripheral processing to make eye movements and point the fovea to acquire high-resolution information about objects of interest. This architecture results in computationally efficient rapid scene exploration. Recent progress in vision Transformers has brought about new alternatives to the traditionally convolution-reliant computer vision systems. However, these models do not explicitly model the foveated properties of the visual system nor the interaction between eye movements and the classification task. We propose foveated Transformer (FoveaTer) model, which uses pooling regions and saccadic movements to perform object classification tasks using a vision Transformer architecture. Our proposed model pools the image features using squared pooling regions, an approximation to the biologically-inspire d foveated architecture, and uses the pooled features as an input to a Transformer Network. It decides on the following fixation location based on the attention assigned by the Transformer to various locations from previous and present fixations. The model uses a confidence threshold to stop scene exploration, allowing to dynamically allocate more fixation/computation al resources to more challenging images. We construct an ensemble model using our proposed model and unfoveated model, achieving an accuracy 1.36% below the unfoveated model with 22% computational savings. Finally, we demonstrate our model's robustness against adversarial attacks, where it outperforms the unfoveated model.
翻訳日:2021-06-01 17:17:39 公開日:2021-05-29
# E2ETag: フィデューシャルマーカーの生成と検出のためのエンドツーエンドのトレーニング方法

E2ETag: An End-to-End Trainable Method for Generating and Detecting Fiducial Markers ( http://arxiv.org/abs/2105.14184v1 )

ライセンス: Link先を確認
J. Brennan Peace, Eric Psota, Yanfeng Liu, Lance C. P\'erez(参考訳) 既存のfiducial markersソリューションは効率的な検出と復号のために設計されているが、比較的限定的な分析から、自然環境において際立つ能力は推測が難しい。 さらに、露出の低さ、動きの曖昧さ、軸外視といった、困難なイメージキャプチャシナリオのパフォーマンス低下は、その制限に光を当てている。 E2ETagは、フィデューシャルマーカーと補足検出器を設計するためのエンドツーエンドのトレーニング方法を提供する。 バックプロパゲータブルマーカーの強化と重ね合わせをトレーニングに導入することにより、完全畳み込み検出器ネットワークを用いて、挑戦的な実環境において検出および分類可能なマーカーを生成する。 その結果、E2ETagは既存の手法よりも理想的な条件で優れており、動きのぼやけ、コントラスト変動、ノイズ、オフ軸視角の存在下では、はるかに優れていた。 ソースコードとトレーニングされたモデルはhttps://github.com/j bpeace/e2etagで入手できる。

Existing fiducial markers solutions are designed for efficient detection and decoding, however, their ability to stand out in natural environments is difficult to infer from relatively limited analysis. Furthermore, worsening performance in challenging image capture scenarios - such as poor exposure, motion blur, and off-axis viewing - sheds light on their limitations. E2ETag introduces an end-to-end trainable method for designing fiducial markers and a complimentary detector. By introducing back-propagatable marker augmentation and superimposition into training, the method learns to generate markers that can be detected and classified in challenging real-world environments using a fully convolutional detector network. Results demonstrate that E2ETag outperforms existing methods in ideal conditions and performs much better in the presence of motion blur, contrast fluctuations, noise, and off-axis viewing angles. Source code and trained models are available at https://github.com/j bpeace/E2ETag.
翻訳日:2021-06-01 17:17:16 公開日:2021-05-29
# FCPose: 動的インスタンス認識の畳み込みによる完全な畳み込み型マルチパーソンポーズ推定

FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic Instance-Aware Convolutions ( http://arxiv.org/abs/2105.14185v1 )

ライセンス: Link先を確認
Weian Mao and Zhi Tian and Xinlong Wang and Chunhua Shen(参考訳) 動的インスタンス認識畳み込みを用いた完全畳み込み型多人数ポーズ推定フレームワークfcposeを提案する。 ROI(Region of Interest)操作や/またはグループ化後処理を必要とする既存の方法とは異なり、FCPoseはROIを排除し、動的インスタンス認識キーポイント推定ヘッドでグループ化後処理を行う。 動的キーポイントヘッドは各インスタンス(人)で条件付けされ、インスタンスの概念をフィルタの動的生成重みにエンコードすることができる。 さらに、動的畳み込みの強い表現能力により、FCPoseのキーポイントヘッドは非常にコンパクトに設計され、高速な推論が可能となり、FCPoseを画像中の人物数に関係なくほぼ一定の推論時間にすることができる。 例えば、COCOデータセットでは、DLA-34バックボーンを使用したFCPoseのリアルタイムバージョンは、パフォーマンスを改善しつつ、Mask R-CNN (ResNet-101) (41.67 FPS vs. 9.26FPS) よりも4.5倍高速である。 FCPoseは、他の最先端の方法よりも高速/高精度のトレードオフを提供する。 実験の結果,FCPoseはシンプルだが効果的な多人数ポーズ推定フレームワークであることがわかった。 コードは、https://git.io/Adela iDet.comで入手できる。

We propose a fully convolutional multi-person pose estimation framework using dynamic instance-aware convolutions, termed FCPose. Different from existing methods, which often require ROI (Region of Interest) operations and/or grouping post-processing, FCPose eliminates the ROIs and grouping post-processing with dynamic instance-aware keypoint estimation heads. The dynamic keypoint heads are conditioned on each instance (person), and can encode the instance concept in the dynamically-generate d weights of their filters. Moreover, with the strong representation capacity of dynamic convolutions, the keypoint heads in FCPose are designed to be very compact, resulting in fast inference and making FCPose have almost constant inference time regardless of the number of persons in the image. For example, on the COCO dataset, a real-time version of FCPose using the DLA-34 backbone infers about 4.5x faster than Mask R-CNN (ResNet-101) (41.67 FPS vs. 9.26FPS) while achieving improved performance. FCPose also offers better speed/accuracy trade-off than other state-of-the-art methods. Our experiment results show that FCPose is a simple yet effective multi-person pose estimation framework. Code is available at: https://git.io/Adela iDet
翻訳日:2021-06-01 17:16:59 公開日:2021-05-29
# 加算のみによる畳み込みの学習

Learning Convolutions with Only Additions ( http://arxiv.org/abs/2105.14202v1 )

ライセンス: Link先を確認
Hanting Chen, Yunhe Wang, Chang Xu, Chao Xu, Chunjing Xu, Tong Zhang(参考訳) 安価な加算演算と比較すると、乗算演算は計算の複雑さがはるかに高い。 ディープニューラルネットワークにおける広く使われている畳み込みは、入力特徴と畳み込みフィルタの類似度を測定するために、正確にクロス相関である。 本稿では,深層ニューラルネットワーク,特に畳み込みニューラルネットワーク(CNN)におけるこれらの膨大な乗算を,計算コストを削減するために,より安価な加算を行うための加算器ネットワーク(AdderNets)を提案する。 AdderNetsでは、フィルタと入力機能の間の$\ell_1$-norm距離を出力応答としています。 この新たな類似度尺度がニューラルネットワークの最適化に与える影響を網羅的に分析した。 より優れたパフォーマンスを実現するため,$\ell_p$-norm を調査し,AdderNets の特別なトレーニング手法を開発した。 次に,各ニューロンの勾配の大きさに応じてアダネットの学習手順を強化する適応学習速度戦略を提案する。 その結果、AdderNetsは画像Netデータセット上でResNet-50を使用して75.7%のTop-1精度92.3%のTop-5精度を達成することができる。 さらに,ReLUアクティベーション関数を持つ単一の隠蔽層AdderNetと幅境界層AdderNetの両方が普遍関数近似器であることを示すことにより,AdderNetsの理論基盤を構築する。 これらの結果は、より複雑な乗算単位を用いて従来のニューラルネットワークのものと一致する。 単一の隠れレイヤでAdderNetsにバインドされた近似も提示される。

Compared with cheap addition operation, multiplication operation is of much higher computation complexity. The widely-used convolutions in deep neural networks are exactly cross-correlation to measure the similarity between input feature and convolution filters, which involves massive multiplications between float values. In this paper, we present adder networks (AdderNets) to trade these massive multiplications in deep neural networks, especially convolutional neural networks (CNNs), for much cheaper additions to reduce computation costs. In AdderNets, we take the $\ell_1$-norm distance between filters and input feature as the output response. The influence of this new similarity measure on the optimization of neural network have been thoroughly analyzed. To achieve a better performance, we develop a special training approach for AdderNets by investigating the $\ell_p$-norm. We then propose an adaptive learning rate strategy to enhance the training procedure of AdderNets according to the magnitude of each neuron's gradient. As a result, the proposed AdderNets can achieve 75.7% Top-1 accuracy 92.3% Top-5 accuracy using ResNet-50 on the ImageNet dataset without any multiplication in convolutional layer. Moreover, we develop a theoretical foundation for AdderNets, by showing that both the single hidden layer AdderNet and the width-bounded deep AdderNet with ReLU activation functions are universal function approximators. These results match those of the traditional neural networks using the more complex multiplication units. An approximation bound for AdderNets with a single hidden layer is also presented.
翻訳日:2021-06-01 17:16:38 公開日:2021-05-29
# UFC-BERT:条件付き画像合成のためのマルチモード制御の統合

UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis ( http://arxiv.org/abs/2105.14211v1 )

ライセンス: Link先を確認
Zhu Zhang, Jianxin Ma, Chang Zhou, Rui Men, Zhikang Li, Ming Ding, Jie Tang, Jingren Zhou, and Hongxia Yang(参考訳) 条件付き画像合成は、テキスト記述、参照画像、画像ブロックの形式で複数のモーダルガイダンスに従って画像を作成し、それらの組み合わせを保存することを目的としている。 本稿では,これらの制御信号を別々に調査する代わりに,複数のマルチモーダル制御を統一する新しい2段階アーキテクチャufc-bertを提案する。 ufc-bertでは、多様な制御信号と合成画像の両方がトランスフォーマによって処理される離散トークン列として一様に表現される。 DALL-EやVQGANのような既存の2段階自己回帰アプローチとは異なり、UFC-BERTは第2段階で非自己回帰生成(NAR)を採用し、合成画像の全体的一貫性を高め、特定の画像ブロックの保存をサポートし、合成速度を向上させる。 さらに,非自己回帰生成画像を反復的に改善するプログレッシブアルゴリズムを設計し,制御に対するコンプライアンスを評価し,合成画像の忠実度を評価するための2つの推定器を開発した。 新たに収集した大規模衣料品データセット m2c-fashion と顔データセット multi-modal celeba-hq の広範な実験により、ufc-bert が柔軟なマルチモーダル制御に準拠した高忠実度画像を合成できることが確認された。

Conditional image synthesis aims to create an image according to some multi-modal guidance in the forms of textual descriptions, reference images, and image blocks to preserve, as well as their combinations. In this paper, instead of investigating these control signals separately, we propose a new two-stage architecture, UFC-BERT, to unify any number of multi-modal controls. In UFC-BERT, both the diverse control signals and the synthesized image are uniformly represented as a sequence of discrete tokens to be processed by Transformer. Different from existing two-stage autoregressive approaches such as DALL-E and VQGAN, UFC-BERT adopts non-autoregressive generation (NAR) at the second stage to enhance the holistic consistency of the synthesized image, to support preserving specified image blocks, and to improve the synthesis speed. Further, we design a progressive algorithm that iteratively improves the non-autoregressively generated image, with the help of two estimators developed for evaluating the compliance with the controls and evaluating the fidelity of the synthesized image, respectively. Extensive experiments on a newly collected large-scale clothing dataset M2C-Fashion and a facial dataset Multi-Modal CelebA-HQ verify that UFC-BERT can synthesize high-fidelity images that comply with flexible multi-modal controls.
翻訳日:2021-06-01 17:16:16 公開日:2021-05-29
# リアル顔編集のためのスタイルGANの潜時空間変換

Transforming the Latent Space of StyleGAN for Real Face Editing ( http://arxiv.org/abs/2105.14230v1 )

ライセンス: Link先を確認
Heyi Li, Jinlong Liu, Yunzhi Bai, Huayan Wang, Klaus Mueller(参考訳) StyleGANを用いたセマンティック操作の最近の進歩にもかかわらず、実際の顔のセマンティック編集は依然として困難である。 w$スペースとw$+スペースのギャップは、復元品質と編集品質の間の望ましくないトレードオフを必要とする。 そこで本研究では,スタイルガンマッピングネットワークの完全接続層を注意に基づくトランスフォーマーに置き換え,潜在空間の拡大を提案する。 この単純で効果的なテクニックは、前述の2つの空間を統合し、$w$++と呼ばれる新しい潜在空間に変換する。 修正されたStyleGANは、従来のStyleGANの最先端の世代品質をある程度の多様性で維持しています。 さらに重要なことに、提案された$w$++スペースは、コンストラクション品質と編集品質の両方において優れたパフォーマンスを達成している。 このような大きな利点にもかかわらず、$w$++スペースは、$w/w$+スペースの構造的類似性によって、既存のインバージョンアルゴリズムと編集メソッドのみをサポートする。 FFHQデータセットの大規模な実験により、提案した$W$++スペースが、実際の顔編集のための以前の$W/W$+スペースよりも明らかに好ましいことが証明された。 このコードは https://github.com/A nonSubm2021/TransSty leGAN で公開されている。

Despite recent advances in semantic manipulation using StyleGAN, semantic editing of real faces remains challenging. The gap between the $W$ space and the $W$+ space demands an undesirable trade-off between reconstruction quality and editing quality. To solve this problem, we propose to expand the latent space by replacing fully-connected layers in the StyleGAN's mapping network with attention-based transformers. This simple and effective technique integrates the aforementioned two spaces and transforms them into one new latent space called $W$++. Our modified StyleGAN maintains the state-of-the-art generation quality of the original StyleGAN with moderately better diversity. But more importantly, the proposed $W$++ space achieves superior performance in both reconstruction quality and editing quality. Despite these significant advantages, our $W$++ space supports existing inversion algorithms and editing methods with only negligible modifications thanks to its structural similarity with the $W/W$+ space. Extensive experiments on the FFHQ dataset prove that our proposed $W$++ space is evidently more preferable than the previous $W/W$+ space for real face editing. The code is publicly available for research purposes at https://github.com/A nonSubm2021/TransSty leGAN.
翻訳日:2021-06-01 17:15:52 公開日:2021-05-29
# 単眼物体のポーズ検出と追跡に関する深層学習 -総括-

Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview ( http://arxiv.org/abs/2105.14291v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Yazhi Zhu, Yulin He, Qi Sun, Hongyan Liu and Jun He(参考訳) オブジェクトのポーズ検出とトラッキングは、自動運転、ロボティクス、拡張現実など、多くの分野で広く応用されているため、最近注目を集めている。 オブジェクトのポーズ検出と追跡の手法の中で、ディープラーニングは、他のものよりも優れたパフォーマンスを示す最も有望な手法である。 しかしながら、ディープラーニングベースの手法の最新開発に関する調査研究が不足している。 そこで本研究では,ディープラーニング技術経路に属するオブジェクトのポーズ検出と追跡の最近の進歩を包括的に概観する。 より詳細な導入を実現するため,本論文の範囲は,インスタンスレベルのモノクラーオブジェクトポーズ検出,カテゴリレベルのモノクラーオブジェクトポーズ検出,モノクラーオブジェクトポーズトラッキングという,3種類の主要なタスクを対象とするモノクラーRGB/RGBDデータを入力とする手法に限られている。 私たちの仕事では、メトリクス、データセット、検出と追跡の両方に関するメソッドが詳細に示されています。 いくつかの公開データセットに対する現在の最先端手法の比較結果も提示され、洞察に富んだ観察と将来の研究方向性が示唆された。

Object pose detection and tracking has recently attracted increasing attention due to its wide applications in many areas, such as autonomous driving, robotics, and augmented reality. Among methods for object pose detection and tracking, deep learning is the most promising one that has shown better performance than others. However, there is lack of survey study about latest development of deep learning based methods. Therefore, this paper presents a comprehensive review of recent progress in object pose detection and tracking that belongs to the deep learning technical route. To achieve a more thorough introduction, the scope of this paper is limited to methods taking monocular RGB/RGBD data as input, covering three kinds of major tasks: instance-level monocular object pose detection, category-level monocular object pose detection, and monocular object pose tracking. In our work, metrics, datasets, and methods about both detection and tracking are presented in detail. Comparative results of current state-of-the-art methods on several publicly available datasets are also presented, together with insightful observations and inspiring future research directions.
翻訳日:2021-06-01 17:15:38 公開日:2021-05-29
# スペクトル空間依存型超スペクトル画像分類のためのグローバル学習フレームワーク

A Spectral-Spatial-Dep endent Global Learning Framework for Insufficient and Imbalanced Hyperspectral Image Classification ( http://arxiv.org/abs/2105.14327v1 )

ライセンス: Link先を確認
Qiqi Zhu, Weihuan Deng, Zhuo Zheng, Yanfei Zhong, Qingfeng Guan, Weihua Lin, Liangpei Zhang, and Deren Li(参考訳) 深層学習技術はハイパースペクトル画像(HSI)分類に広く応用されており、大きな成功を収めている。 しかし、ディープニューラルネットワークモデルは大きなパラメータ空間を持ち、大量のラベル付きデータを必要とする。 HSI分類のためのディープラーニング手法は通常、パッチワイズ学習フレームワークに従う。 近年,グローバル空間情報に基づくHSI分類のために,高速なパッチフリーグローバルラーニング(FPGA)アーキテクチャが提案されている。 しかし、FPGAはサンプルデータが不均衡である場合に最も識別性の高い特徴を抽出することが困難である。 本稿では,グローバル畳み込み型長期記憶(gcl)とグローバル・ジョイント・アテンション・メカニズム(gjam)に基づくスペクトル空間依存型グローバル・ラーニング(ssdgl)フレームワークを提案する。 SSDGLでは,不均衡なサンプル問題に対処するために,階層的バランス(H-B)サンプリング戦略と重み付きソフトマックス損失を提案する。 土地被覆型の類似スペクトル特性を効果的に識別するために,GCLモジュールを導入し,スペクトル特性の長期依存性を抽出した。 最も識別性の高い特徴表現を学習するために、GJAMモジュールは注意領域を抽出するために提案される。 3つのhsiデータセットを用いて得られた実験結果は、ssdglが不十分かつ不均衡なサンプル問題において強力な性能を有し、他の最先端手法よりも優れていることを示している。 コードは、https://github.com/d engweihuan/SSDGLで取得できる。

Deep learning techniques have been widely applied to hyperspectral image (HSI) classification and have achieved great success. However, the deep neural network model has a large parameter space and requires a large number of labeled data. Deep learning methods for HSI classification usually follow a patchwise learning framework. Recently, a fast patch-free global learning (FPGA) architecture was proposed for HSI classification according to global spatial context information. However, FPGA has difficulty extracting the most discriminative features when the sample data is imbalanced. In this paper, a spectral-spatial dependent global learning (SSDGL) framework based on global convolutional long short-term memory (GCL) and global joint attention mechanism (GJAM) is proposed for insufficient and imbalanced HSI classification. In SSDGL, the hierarchically balanced (H-B) sampling strategy and the weighted softmax loss are proposed to address the imbalanced sample problem. To effectively distinguish similar spectral characteristics of land cover types, the GCL module is introduced to extract the long short-term dependency of spectral features. To learn the most discriminative feature representations, the GJAM module is proposed to extract attention areas. The experimental results obtained with three public HSI datasets show that the SSDGL has powerful performance in insufficient and imbalanced sample problems and is superior to other state-of-the-art methods. Code can be obtained at: https://github.com/d engweihuan/SSDGL.
翻訳日:2021-06-01 17:15:22 公開日:2021-05-29
# スペクトルを超えて:再合成によるディープフェイクの検出

Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis ( http://arxiv.org/abs/2105.14376v1 )

ライセンス: Link先を確認
Yang He and Ning Yu and Margret Keuper and Mario Fritz(参考訳) 過去数年間の深層生成モデルの急速な進歩は、リアルと人間の目では区別がつかない高度に非現実的メディア(deepfakes)へとつながった。 これらの進歩により、視覚データの真正性の評価はますます難しくなり、視覚コンテンツ全般の信頼性に対する誤報の脅威となる。 近年の研究では、このようなディープフェイクの検出精度が強いことが示されているが、その成功は主に生成された画像の周波数アーチファクトの特定に依存しているため、生成モデルの進化と実際の画像へのギャップの閉鎖が続くため、持続可能な検出アプローチは得られない。 そこで本研究では,テスト画像の再合成と検出のための視覚的手がかり抽出を目的とした,新しい偽検出手法を提案する。 再合成の手順は柔軟で、一連の視覚的タスクを組み込むことができます。 我々は,CelebA-HQ,FFHQ,LSUN データセット上の複数のジェネレータを含む様々な検出シナリオにおいて,我々のアプローチの摂動に対する改善効果,GANの一般化,堅牢性を示す。 ソースコードはhttps://github.com/S SAW14/BeyondtheSpect rumで入手できる。

The rapid advances in deep generative models over the past years have led to highly {realistic media, known as deepfakes,} that are commonly indistinguishable from real to human eyes. These advances make assessing the authenticity of visual data increasingly difficult and pose a misinformation threat to the trustworthiness of visual content in general. Although recent work has shown strong detection accuracy of such deepfakes, the success largely relies on identifying frequency artifacts in the generated images, which will not yield a sustainable detection approach as generative models continue evolving and closing the gap to real images. In order to overcome this issue, we propose a novel fake detection that is designed to re-synthesize testing images and extract visual cues for detection. The re-synthesis procedure is flexible, allowing us to incorporate a series of visual tasks - we adopt super-resolution, denoising and colorization as the re-synthesis. We demonstrate the improved effectiveness, cross-GAN generalization, and robustness against perturbations of our approach in a variety of detection scenarios involving multiple generators over CelebA-HQ, FFHQ, and LSUN datasets. Source code is available at https://github.com/S SAW14/BeyondtheSpect rum.
翻訳日:2021-06-01 17:14:54 公開日:2021-05-29
# 多次元画像復元のための自己監督非線形変換に基づくテンソル核ノルム

Self-Supervised Nonlinear Transform-Based Tensor Nuclear Norm for Multi-Dimensional Image Recovery ( http://arxiv.org/abs/2105.14320v1 )

ライセンス: Link先を確認
Yi-Si Luo, Xi-Le Zhao, Tai-Xiang Jiang, Yi Chang, Michael K. Ng, and Chao Li(参考訳) 本稿では,多次元画像復元について検討する。 近年, 変換型テンソル核ノルム最小化法は, 低ランクテンソル構造を捕捉し, 多次元画像処理で3階テンソルを復元すると考えられている。 このような方法の主な特徴は、3階テンソルの第3モードに沿って線形変換を行い、次に変換テンソル上のテンソル核ノルム最小化を演算することで、下層の低ランクテンソルを復元することができる。 本稿では,非線形多層ニューラルネットワークを用いて,観測されたテンソルデータから非線形変換を学習する手法を提案する。 提案するネットワークは、非線形変換を構成するために、変換テンソルの低ランク表現と観測テンソルと再構成テンソルとの間のデータフィッティングを利用する。 テンソル補完法,背景減算法,ロバストテンソル補完法,スナップショット圧縮画像法について実験を行い,提案法の性能が最先端法よりも優れていることを示す。

In this paper, we study multi-dimensional image recovery. Recently, transform-based tensor nuclear norm minimization methods are considered to capture low-rank tensor structures to recover third-order tensors in multi-dimensional image processing applications. The main characteristic of such methods is to perform the linear transform along the third mode of third-order tensors, and then compute tensor nuclear norm minimization on the transformed tensor so that the underlying low-rank tensors can be recovered. The main aim of this paper is to propose a nonlinear multilayer neural network to learn a nonlinear transform via the observed tensor data under self-supervision. The proposed network makes use of low-rank representation of transformed tensors and data-fitting between the observed tensor and the reconstructed tensor to construct the nonlinear transformation. Extensive experimental results on tensor completion, background subtraction, robust tensor completion, and snapshot compressive imaging are presented to demonstrate that the performance of the proposed method is better than that of state-of-the-art methods.
翻訳日:2021-06-01 17:00:17 公開日:2021-05-29
# 病理画像の自動スクリーニングのための条件付き深部畳み込みニューラルネットワーク

Conditional Deep Convolutional Neural Networks for Improving the Automated Screening of Histopathological Images ( http://arxiv.org/abs/2105.14338v1 )

ライセンス: Link先を確認
Gianluca Gerard, Marco Piastra(参考訳) 病理組織学的スライスにおける乳癌転移のセマンティックセグメンテーションは難しい課題である。 実際、病理画像(ドメインシフト)のデータ特性の顕著な変化は、深層学習の一般化を困難にしている。 本研究の目的は,条件付き完全畳み込みネットワーク(co-fcn)を用いて,実行時に出力を条件付けし,適切に選択された参照スライドを用いて出力を条件付けすることにより,その性能を向上させることにある。 また,camlyon17データセットに存在する5つの医療センターのうち3つのうち,3つから3つのスライド画像(wsis)を解析した。 残りのセンターのWSIでネットワークの性能を検証した。 また,ターゲット固有の参照パッチのセットに適用された教師なしクラスタリングプロセスに基づいて,条件付きサブセットを選択するための自動選択戦略を開発し,入力パッチとクラスタの類似性に依存する選択ポリシーを開発した。 条件なしのデータセットでトレーニングしたU-Netに対して,提案手法をベンチマークした。 条件付きネットワークは、WSIs上のU-Netに分離された腫瘍細胞と、テストとして使用される医療センターのマイクロメタスターゼとのより良い性能を示す。 我々の貢献は病理組織学領域に適用可能なアーキテクチャであり,コンディショニングデータの選択のための自動化手順である。

Semantic segmentation of breast cancer metastases in histopathological slides is a challenging task. In fact, significant variation in data characteristics of histopathology images (domain shift) make generalization of deep learning to unseen data difficult. Our goal is to address this challenge by using a conditional Fully Convolutional Network (co-FCN) whose output can be conditioned at run time, and which can improve its performance when a properly selected set of reference slides are used to condition the output. We adapted to our task a co-FCN originally applied to organs segmentation in volumetric medical images and we trained it on the Whole Slide Images (WSIs) from three out of five medical centers present in the CAMELYON17 dataset. We tested the performance of the network on the WSIs of the remaining centers. We also developed an automated selection strategy for selecting the conditioning subset, based on an unsupervised clustering process applied to a target-specific set of reference patches, followed by a selection policy that relies on the cluster similarities with the input patch. We benchmarked our proposed method against a U-Net trained on the same dataset with no conditioning. The conditioned network shows better performance that the U-Net on the WSIs with Isolated Tumor Cells and micro-metastases from the medical centers used as test. Our contributions are an architecture which can be applied to the histopathology domain and an automated procedure for the selection of conditioning data.
翻訳日:2021-06-01 17:00:00 公開日:2021-05-29
# 自由手超音波と構造光を用いた3次元マルチモーダル医用イメージングシステム

Three-dimensional multimodal medical imaging system based on free-hand ultrasound and structured light ( http://arxiv.org/abs/2105.14355v1 )

ライセンス: Link先を確認
Jhacson Meza, Sonia H. Contreras-Ortiz, Lenny A. Romero, Andres G. Marrugo(参考訳) 本論文では,自由手超音波と立体光3次元再構成を併用した3次元3次元マルチモーダル医用イメージングシステムを提案する。 我々の知る限りでは、これらの技術は以前はマルチモーダルイメージング技術として組み合わせられていない。 このシステムは、内部の3D情報を超音波で補い、外部の表面を構造光技術で測定する。 さらに,畳み込みニューラルネットワークを用いてポーズ推定のための超音波プローブの光学的追跡を行った。 実験の結果,術前および術中応用の可能性とともに,高い精度と再現性を示した。 実験用マルチモーダル誤差(異なるモーダル性を持つ2つの表面からの距離)は0.12mmであった。 コードはGithubリポジトリとして入手できる。

We propose a three-dimensional (3D) multimodal medical imaging system that combines freehand ultrasound and structured light 3D reconstruction in a single coordinate system without requiring registration. To the best of our knowledge, these techniques have not been combined before as a multimodal imaging technique. The system complements the internal 3D information acquired with ultrasound, with the external surface measured with the structure light technique. Moreover, the ultrasound probe's optical tracking for pose estimation was implemented based on a convolutional neural network. Experimental results show the system's high accuracy and reproducibility, as well as its potential for preoperative and intraoperative applications. The experimental multimodal error, or the distance from two surfaces obtained with different modalities, was 0.12 mm. The code is available as a Github repository.
翻訳日:2021-06-01 16:59:38 公開日:2021-05-29
# 解釈可能性の定義と解釈可能なモデルの学習

The Definitions of Interpretability and Learning of Interpretable Models ( http://arxiv.org/abs/2105.14171v1 )

ライセンス: Link先を確認
Weishen Pan, Changshui Zhang(参考訳) 機械学習アルゴリズムがますます多くのアプリケーションに採用されるにつれて、解釈は決定的なデシプラタムとして現れてきた。 本稿では,人間解釈モデルに対する数学的定義を提案する。 特に,2つの情報処理システム間の解釈可能性を定義する。 上記解釈可能性定義に基づく人間の認識システムによって予測モデルが解釈可能であれば、予測モデルは、完全に人間解釈可能なモデルとして定義される。 ユーザインタラクションによって完全に人間解釈可能なモデルをトレーニングするための実用的なフレームワークを更に設計する。 画像データセットにおける実験は,提案モデルの利点を2つの側面から示している。1) 完全に人間解釈可能なモデルは,人間の理解可能な意思決定プロセス全体を提供できる。

As machine learning algorithms getting adopted in an ever-increasing number of applications, interpretation has emerged as a crucial desideratum. In this paper, we propose a mathematical definition for the human-interpretable model. In particular, we define interpretability between two information process systems. If a prediction model is interpretable by a human recognition system based on the above interpretability definition, the prediction model is defined as a completely human-interpretable model. We further design a practical framework to train a completely human-interpretable model by user interactions. Experiments on image datasets show the advantages of our proposed model in two aspects: 1) The completely human-interpretable model can provide an entire decision-making process that is human-understandable ; 2) The completely human-interpretable model is more robust against adversarial attacks.
翻訳日:2021-06-01 16:54:40 公開日:2021-05-29
# 非凸PLミニマックス問題に対するフェデレーション学習フレームワーク

A Federated Learning Framework for Nonconvex-PL Minimax Problems ( http://arxiv.org/abs/2105.14216v1 )

ライセンス: Link先を確認
Jiahao Xie, Chao Zhang, Yunsong Zhang, Zebang Shen, Hui Qian(参考訳) クロスデバイス・フェデレーション学習環境における非凸PLミニマックス問題の一般的なクラスを考える。 非凸plミニマックス問題は近年、多くの関心を集めているが、既存のアルゴリズムは、従来の分散設定とは大きく異なり、新しい課題を提起するクロスデバイスフェデレーション学習設定には適用されない。 このギャップを埋めるため,FedSGDAというアルゴリズムフレームワークを提案する。 fedsgdaは各ラウンドのアクティブクライアントのサブセットに対して複数のローカル更新ステップを実行し、グローバル勾配推定を利用してローカル更新方向のバイアスを補正する。 FedSGDAを2つの代表的なグローバル勾配推定器に組み込むことで、2つの特定のアルゴリズムを得る。 提案するアルゴリズムの収束率は,新しいポテンシャル関数を用いて決定する。 合成データと実データによる実験結果は,我々の理論を裏付け,アルゴリズムの有効性を実証する。

We consider a general class of nonconvex-PL minimax problems in the cross-device federated learning setting. Although nonconvex-PL minimax problems have received a lot of interest in recent years, existing algorithms do not apply to the cross-device federated learning setting which is substantially different from conventional distributed settings and poses new challenges. To bridge this gap, we propose an algorithmic framework named FedSGDA. FedSGDA performs multiple local update steps on a subset of active clients in each round and leverages global gradient estimates to correct the bias in local update directions. By incorporating FedSGDA with two representative global gradient estimators, we obtain two specific algorithms. We establish convergence rates of the proposed algorithms by using novel potential functions. Experimental results on synthetic and real data corroborate our theory and demonstrate the effectiveness of our algorithms.
翻訳日:2021-06-01 16:54:28 公開日:2021-05-29
# リンク予測のためのハッシュ高速化グラフニューラルネットワーク

Hashing-Accelerated Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2105.14280v1 )

ライセンス: Link先を確認
Wei Wu, Bin Li, Chuan Luo, Wolfgang Nejdl(参考訳) ネットワークは現実世界においてユビキタスです。 リンク予測は、2つのノード間のリンクが存在するかどうかを予測することを目的としている。 従来の手法は、各ノードを低次元空間に埋め込み、コンパクトノード表現間の明示的な類似性計算に基づいている。 リンク予測における集中的類似性計算を効率的に処理するために,ハミング空間におけるノード表現の生成にハッシュ手法が有効である。 しかし、ハッシュ化に基づくリンク予測アルゴリズムは、ランダム化ハッシュ技術や学習からハッシュ技術への非効率性によって精度が低下する。 現在、グラフニューラルネットワーク(GNN)フレームワークは、エンドツーエンドでグラフ関連のタスクに広く適用されているが、大規模なパラメータ学習のため、計算資源とメモリコストがかなり必要であり、GNNベースのアルゴリズムは強力なワークホースの助けなしに実用的ではない。 本稿では,精度と効率のトレードオフを両立させる,単純かつ効果的な#gnnモデルを提案する。 GNNは、ランダム化ハッシュ技術を利用して、メッセージパッシングを実装し、GNNフレームワークの高次近接をキャプチャすることで、リンク予測のためにハミング空間のノード表現を効率的に取得することができる。 さらに,#GNNの識別能力を確率で特徴付ける。 実験結果から,提案した#GNNアルゴリズムは学習ベースアルゴリズムに匹敵する精度を達成し,学習ベースアルゴリズムよりもはるかに高速に動作し,ランダム化アルゴリズムより優れていることが示された。 また,提案アルゴリズムは,限られた資源を持つ大規模ネットワークにおいて優れたスケーラビリティを示す。

Networks are ubiquitous in the real world. Link prediction, as one of the key problems for network-structured data, aims to predict whether there exists a link between two nodes. The traditional approaches are based on the explicit similarity computation between the compact node representation by embedding each node into a low-dimensional space. In order to efficiently handle the intensive similarity computation in link prediction, the hashing technique has been successfully used to produce the node representation in the Hamming space. However, the hashing-based link prediction algorithms face accuracy loss from the randomized hashing techniques or inefficiency from the learning to hash techniques in the embedding process. Currently, the Graph Neural Network (GNN) framework has been widely applied to the graph-related tasks in an end-to-end manner, but it commonly requires substantial computational resources and memory costs due to massive parameter learning, which makes the GNN-based algorithms impractical without the help of a powerful workhorse. In this paper, we propose a simple and effective model called #GNN, which balances the trade-off between accuracy and efficiency. #GNN is able to efficiently acquire node representation in the Hamming space for link prediction by exploiting the randomized hashing technique to implement message passing and capture high-order proximity in the GNN framework. Furthermore, we characterize the discriminative power of #GNN in probability. The extensive experimental results demonstrate that the proposed #GNN algorithm achieves accuracy comparable to the learning-based algorithms and outperforms the randomized algorithm, while running significantly faster than the learning-based algorithms. Also, the proposed algorithm shows excellent scalability on a large-scale network with the limited resources.
翻訳日:2021-06-01 16:54:15 公開日:2021-05-29
# 1次元の強い対数対数分布からのサンプリングの問合せ複雑性

The query complexity of sampling from strongly log-concave distributions in one dimension ( http://arxiv.org/abs/2105.14163v1 )

ライセンス: Link先を確認
Sinho Chewi, Patrik Gerber, Chen Lu, Thibaut Le Gouic, Philippe Rigollet(参考訳) 1次元の条件数$\kappa$の強い対数凹および対数平滑分布のクラスからサンプリングするクエリ複雑性に基づいて、最初の厳密な下限$\Omega(\log\log\kap pa)$を確立する。 MCMCに基づくアルゴリズムの既存の保証は$\kappa$で多項式的にスケールするが、この2倍の指数ギャップを閉じるリジェクションサンプリングに基づく新しいアルゴリズムを導入する。

We establish the first tight lower bound of $\Omega(\log\log\kap pa)$ on the query complexity of sampling from the class of strongly log-concave and log-smooth distributions with condition number $\kappa$ in one dimension. Whereas existing guarantees for MCMC-based algorithms scale polynomially in $\kappa$, we introduce a novel algorithm based on rejection sampling that closes this doubly exponential gap.
翻訳日:2021-06-01 16:49:56 公開日:2021-05-29
# 機械学習を用いたエネルギー遷移の空気質コベネフィットの推定

Estimating air quality co-benefits of energy transition using machine learning ( http://arxiv.org/abs/2105.14318v1 )

ライセンス: Link先を確認
Da Zhang, Qingyi Wang, Shaojie Song, Simiao Chen, Mingwei Li, Lu Shen, Siqi Zheng, Bofeng Cai, Shenhao Wang(参考訳) 水質改善による化石燃料の使用削減による健康上のメリットの推定は、二酸化炭素排出削減の重要な根拠となる。 汚染濃度のシミュレーションは推定の重要なステップであるが、従来のアプローチは複雑な化学輸送モデルに依存しており、膨大な専門知識と計算資源を必要とする。 本研究では,高分解能化石エネルギー利用データセットから直接,高精度でロバストな年平均粒子(pm2.5)濃度推定を可能にする,簡潔な機械学習フレームワークを開発した。 このフレームワークのアクセシビリティと適用性は、統合評価研究における機械学習アプローチの大きな可能性を示している。 中国のデータとの枠組みの適用により、中国各部門や地域における化石燃料の使用を34ドル/tco2平均と84ドル/tco2標準偏差で減らすという、非常に異質な健康上のメリットが明らかになった。 田園および住宅の石炭利用を減らすことは、360ドル/tco2平均で最も高い利益をもたらす。 本研究は,カーボンニュートラルエネルギーシステムへの移行におけるコスト効率を最大化するために,注意深い政策設計を提起する。

Estimating health benefits of reducing fossil fuel use from improved air quality provides important rationales for carbon emissions abatement. Simulating pollution concentration is a crucial step of the estimation, but traditional approaches often rely on complicated chemical transport models that require extensive expertise and computational resources. In this study, we develop a novel and succinct machine learning framework that is able to provide precise and robust annual average fine particle (PM2.5) concentration estimations directly from a high-resolution fossil energy use data set. The accessibility and applicability of this framework show great potentials of machine learning approaches for integrated assessment studies. Applications of the framework with Chinese data reveal highly heterogeneous health benefits of reducing fossil fuel use in different sectors and regions in China with a mean of \$34/tCO2 and a standard deviation of \$84/tCO2. Reducing rural and residential coal use offers the highest co-benefits with a mean of \$360/tCO2. Our findings prompt careful policy designs to maximize cost-effectiveness in the transition towards a carbon-neutral energy system.
翻訳日:2021-06-01 16:49:48 公開日:2021-05-29
# 集中および分散ミラー降下について:二次制約を用いた指数収束解析

On Centralized and Distributed Mirror Descent: Exponential Convergence Analysis Using Quadratic Constraints ( http://arxiv.org/abs/2105.14385v1 )

ライセンス: Link先を確認
Youbang Sun, Mahyar Fazlyab, Shahin Shahrampour(参考訳) ミラー降下 (MD) は、勾配降下 (GD) を含むいくつかの最適化アルゴリズムを仮定する強力な一階最適化手法である。 本研究では,強い凸と滑らかな問題に対して,集中型および分散型両方のケースにおけるMDの正確な収束率について検討する。 動的システムレンズでMDを観察し,2次制約(QC)を活用し,リアプノフ安定性に基づく収束保証を提供する。 集中型MDでは、線形行列不等式(LMI)を受けるMDの指数的高速収束を証明できる半定値プログラミング(SDP)を確立する。 我々は、SDPは常に最適GDレートを回復する実現可能な解を持っていることを証明した。 次に、分散MDの指数収束を分析し、2つのLMIを用いて速度を特徴付ける。 我々の知る限り、分散MDの正確な(指数的な)速度は文献ではこれまで研究されていない。 我々の理論の検証として数値的な結果を示し、リャプノフ関数のリッチさは分散GDの既存の研究よりも(Worst-case)収束率が高いことを観察する。

Mirror descent (MD) is a powerful first-order optimization technique that subsumes several optimization algorithms including gradient descent (GD). In this work, we study the exact convergence rate of MD in both centralized and distributed cases for strongly convex and smooth problems. We view MD with a dynamical system lens and leverage quadratic constraints (QCs) to provide convergence guarantees based on the Lyapunov stability. For centralized MD, we establish a semi-definite programming (SDP) that certifies exponentially fast convergence of MD subject to a linear matrix inequality (LMI). We prove that the SDP always has a feasible solution that recovers the optimal GD rate. Next, we analyze the exponential convergence of distributed MD and characterize the rate using two LMIs. To the best of our knowledge, the exact (exponential) rate of distributed MD has not been previously explored in the literature. We present numerical results as a verification of our theory and observe that the richness of the Lyapunov function entails better (worst-case) convergence rates compared to existing works on distributed GD.
翻訳日:2021-06-01 16:49:29 公開日:2021-05-29