このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201217となっている論文です。

PDF登録状況(公開日: 20201217)

TitleAuthorsAbstract論文公表日・翻訳日
# 映像から映像へ視覚効果を伝達する学習

Learning to Transfer Visual Effects from Videos to Images ( http://arxiv.org/abs/2012.01642v2 )

ライセンス: Link先を確認
Christopher Thomas, Yale Song, Adriana Kovashka(参考訳) 本研究では,ビデオのコレクションから時空間的効果(溶融など)を伝達することで,画像のアニメーション化の問題を研究する。 視覚効果伝達における主な課題は, 1) 蒸留したい効果を捉える方法,2) 内容や芸術的スタイルではなく, 効果のみをソースビデオから入力画像に移す方法,の2つである。 最初の課題に対処するために、我々は5つの損失関数を評価し、最も有望なものは、生成したアニメーションが、ソースビデオと似た光学的流れとテクスチャ運動を持つことを奨励する。 第2の課題に対処するために、制約のないピクセル値を予測するのではなく、既存の画像ピクセルを以前のフレームから移動させることしかできない。 これにより、入力画像のピクセルを使って視覚効果を発生させ、ソースビデオからの不要な芸術的スタイルや内容が出力に現れるのを防ぐ。 提案手法を客観的および主観的設定で評価し,顔の融解や鹿の開花などの非定型的変換対象を示す興味深い定性的な結果を示す。

We study the problem of animating images by transferring spatio-temporal visual effects (such as melting) from a collection of videos. We tackle two primary challenges in visual effect transfer: 1) how to capture the effect we wish to distill; and 2) how to ensure that only the effect, rather than content or artistic style, is transferred from the source videos to the input image. To address the first challenge, we evaluate five loss functions; the most promising one encourages the generated animations to have similar optical flow and texture motions as the source videos. To address the second challenge, we only allow our model to move existing image pixels from the previous frame, rather than predicting unconstrained pixel values. This forces any visual effects to occur using the input image's pixels, preventing unwanted artistic style or content from the source video from appearing in the output. We evaluate our method in objective and subjective settings, and show interesting qualitative results which demonstrate objects undergoing atypical transformations, such as making a face melt or a deer bloom.
翻訳日:2021-05-23 14:58:35 公開日:2020-12-17
# SAFCAR:構成行動認識のための構造化注意融合

SAFCAR: Structured Attention Fusion for Compositional Action Recognition ( http://arxiv.org/abs/2012.02109v2 )

ライセンス: Link先を確認
Tae Soo Kim, Gregory D. Hager(参考訳) 構成的行動認識のための一般的な枠組みを提示する。 アクション認識では、ラベルはサブジェクトやアトミックアクション、オブジェクトといった単純なコンポーネントで構成されている。 構成的行動認識の最大の課題は、基本的なコンポーネントを使って構成できる、組み合わせ可能なアクションのセットが多数存在することである。 しかし、構成性はまた、利用可能な構造を提供する。 そこで我々は,アクションの時系列構造をキャプチャする物体検出情報と,文脈情報をキャプチャする視覚手がかりとを組み合わせた,新しい構造化注意融合(saf)自己照準機構を開発し,検証する。 提案手法は,新しい動詞句の合成を,現在の技術システムよりも効果的に認識し,いくつかのラベル付き例から非常に効率的なアクションカテゴリーに一般化することを示す。 我々は,Something-V2データセットの課題であるSomesing-Elseタスクに対するアプローチを検証する。 さらに、当社のフレームワークはフレキシブルで、Charades-Fewshotデータセット上で競合する結果を示すことによって、新たなドメインに一般化可能であることを示す。

We present a general framework for compositional action recognition -- i.e. action recognition where the labels are composed out of simpler components such as subjects, atomic-actions and objects. The main challenge in compositional action recognition is that there is a combinatorially large set of possible actions that can be composed using basic components. However, compositionality also provides a structure that can be exploited. To do so, we develop and test a novel Structured Attention Fusion (SAF) self-attention mechanism to combine information from object detections, which capture the time-series structure of an action, with visual cues that capture contextual information. We show that our approach recognizes novel verb-noun compositions more effectively than current state of the art systems, and it generalizes to unseen action categories quite efficiently from only a few labeled examples. We validate our approach on the challenging Something-Else tasks from the Something-Something- V2 dataset. We further show that our framework is flexible and can generalize to a new domain by showing competitive results on the Charades-Fewshot dataset.
翻訳日:2021-05-23 14:52:24 公開日:2020-12-17
# 自律運転のためのコンピュータステレオビジョン

Computer Stereo Vision for Autonomous Driving ( http://arxiv.org/abs/2012.03194v2 )

ライセンス: Link先を確認
Rui Fan, Li Wang, Mohammud Junaid Bocus, Ioannis Pitas(参考訳) 自律システムの重要なコンポーネントとして、自律的な自動車認識は、最近の並列コンピューティングアーキテクチャの進歩で大きな飛躍を遂げた。 小型だがフル機能の組み込みスーパーコンピュータを使用することで、コンピュータステレオビジョンは自動運転車の奥行き認識に広く採用されている。 コンピュータステレオビジョンの2つの重要な側面は、スピードと精度である。 これらはどちらも望ましいが相反する性質であり、より精度のよいアルゴリズムは計算の複雑さが高い。 したがって、リソース制限ハードウェアのためのコンピュータステレオビジョンアルゴリズムを開発する主な目的は、速度と精度のトレードオフを改善することである。 本章では,自律走行車システムにおけるコンピュータステレオビジョンのハードウェアとソフトウェアの両方について紹介する。 次に, 視覚的特徴検出, 説明とマッチング, 2) 3D情報取得, 3) 物体検出/認識, 4) セマンティックイメージセグメンテーションの4つの自律車認識タスクについて議論する。 次に、マルチスレッドCPUおよびGPUアーキテクチャにおけるコンピュータステレオビジョンと並列コンピューティングの原理を詳述する。

As an important component of autonomous systems, autonomous car perception has had a big leap with recent advances in parallel computing architectures. With the use of tiny but full-feature embedded supercomputers, computer stereo vision has been prevalently applied in autonomous cars for depth perception. The two key aspects of computer stereo vision are speed and accuracy. They are both desirable but conflicting properties, as the algorithms with better disparity accuracy usually have higher computational complexity. Therefore, the main aim of developing a computer stereo vision algorithm for resource-limited hardware is to improve the trade-off between speed and accuracy. In this chapter, we introduce both the hardware and software aspects of computer stereo vision for autonomous car systems. Then, we discuss four autonomous car perception tasks, including 1) visual feature detection, description and matching, 2) 3D information acquisition, 3) object detection/recognitio n and 4) semantic image segmentation. The principles of computer stereo vision and parallel computing on multi-threading CPU and GPU architectures are then detailed.
翻訳日:2021-05-21 13:58:25 公開日:2020-12-17
# (参考訳) スーパーマーケット記録を用いた季節インフルエンザ予測 [全文訳有]

Predicting seasonal influenza using supermarket retail records ( http://arxiv.org/abs/2012.04651v2 )

ライセンス: CC BY 4.0
Ioanna Miliou, Xinyue Xiong, Salvatore Rinzivillo, Qian Zhang, Giulio Rossetti, Fosca Giannotti, Dino Pedreschi, Alessandro Vespignani(参考訳) 疫学データの可用性の向上、新しいデジタルデータストリーム、強力な機械学習アプローチの台頭により、リアルタイム流行予測システムの研究活動が急増している。 本稿では,インフルエンザの季節予測を改善するために,新しいデータソース,すなわち小売市場データの利用を提案する。 具体的には、スーパーマーケットの小売データを、選択された顧客の集団が一緒に購入したセンチネルバスケットの識別を通じて、インフルエンザの代理信号として捉えている。 我々は、イタリアでインフルエンザの発生率を最大4週間前に見積もる nowcasting and forecasting framework を開発した。 我々は,svrモデルを用いて季節性インフルエンザの発生予測を行う。 我々の予測は,製品購入に基づくベースライン自己回帰モデルと第2ベースラインの両方を上回っている。 その結果,疫病のリアルタイム分析に有効なプロキシとして,予測モデルに小売市場データを組み込むことの価値が定量的に示された。

Increased availability of epidemiological data, novel digital data streams, and the rise of powerful machine learning approaches have generated a surge of research activity on real-time epidemic forecast systems. In this paper, we propose the use of a novel data source, namely retail market data to improve seasonal influenza forecasting. Specifically, we consider supermarket retail data as a proxy signal for influenza, through the identification of sentinel baskets, i.e., products bought together by a population of selected customers. We develop a nowcasting and forecasting framework that provides estimates for influenza incidence in Italy up to 4 weeks ahead. We make use of the Support Vector Regression (SVR) model to produce the predictions of seasonal flu incidence. Our predictions outperform both a baseline autoregressive model and a second baseline based on product purchases. The results show quantitatively the value of incorporating retail market data in forecasting models, acting as a proxy that can be used for the real-time analysis of epidemics.
翻訳日:2021-05-17 03:56:56 公開日:2020-12-17
# 品質多様性最適化 : 確率最適化の新分野

Quality-Diversity Optimization: a novel branch of stochastic optimization ( http://arxiv.org/abs/2012.04322v2 )

ライセンス: Link先を確認
Konstantinos Chatzilygeroudis, Antoine Cully, Vassilis Vassiliades and Jean-Baptiste Mouret(参考訳) 従来の最適化アルゴリズムは、目的関数を最大化(または最小化)する単一のグローバル最適化を探索する。 マルチモーダル最適化アルゴリズムは、1つ以上の探索空間で最も高いピークを探索する。 品質多様性アルゴリズムは、進化的計算ツールボックスに最近追加されたもので、単一の局所光学系を探索するだけでなく、検索空間を照らそうとする。 実際、彼らは高パフォーマンスなソリューションが検索空間全体にどのように分散されているかの全体像を提供する。 マルチモーダル最適化アルゴリズムとの主な違いは、(1)品質の多様性は一般的に行動空間(または特徴空間)で機能し、ジェネティピック(またはパラメータ)空間では動作しない。 本章では,品質と多様性の最適化について概説し,主要な代表的アルゴリズムと,コミュニティで検討中の主要なトピックについて論じる。 この章を通じて、ディープラーニング、ロボット工学、強化学習を含む品質多様性アルゴリズムのいくつかの成功例についても論じる。

Traditional optimization algorithms search for a single global optimum that maximizes (or minimizes) the objective function. Multimodal optimization algorithms search for the highest peaks in the search space that can be more than one. Quality-Diversity algorithms are a recent addition to the evolutionary computation toolbox that do not only search for a single set of local optima, but instead try to illuminate the search space. In effect, they provide a holistic view of how high-performing solutions are distributed throughout a search space. The main differences with multimodal optimization algorithms are that (1) Quality-Diversity typically works in the behavioral space (or feature space), and not in the genotypic (or parameter) space, and (2) Quality-Diversity attempts to fill the whole behavior space, even if the niche is not a peak in the fitness landscape. In this chapter, we provide a gentle introduction to Quality-Diversity optimization, discuss the main representative algorithms, and the main current topics under consideration in the community. Throughout the chapter, we also discuss several successful applications of Quality-Diversity algorithms, including deep learning, robotics, and reinforcement learning.
翻訳日:2021-05-16 21:37:17 公開日:2020-12-17
# CNNを用いた胸部X線画像からのCOVID-19検出

COVID-19 Detection in Chest X-Ray Images using a New Channel Boosted CNN ( http://arxiv.org/abs/2012.05073v2 )

ライセンス: Link先を確認
Saddam Hussain Khan, Anabia Sohail, and Asifullah Khan(参考訳) 新型コロナウイルス(COVID-19)は感染性の高い呼吸器感染症で、世界中の人口に影響を与え、その壊滅的な影響を継続している。 感染範囲を制限するには、早期にcovid-19を検出することが不可欠である。 本研究では, 深部畳み込みニューラルネットワーク(CNN)とチャネルブースティングに基づく新しい分類手法CB-STM-RENetを提案する。 この接続では、新型コロナウイルス特異的な放射線画像パターンを学習するために、分割変換マージ(STM)に基づく新しい畳み込みブロックを開発する。 この新しいブロックは、各ブランチの領域とエッジベースの操作を体系的に組み込んで、様々なレベルの様々な特徴、特に領域の均一性、テクスチュラルなバリエーション、および感染領域の境界に関する特徴を捉えている。 提案したCNNアーキテクチャの学習と識別能力は、補助チャネルと元のチャネルを連結するチャネルブースティングのアイデアを活用することで向上する。 補助チャネルは、Transfer Learningを用いて事前訓練されたCNNから生成される。 CB-STM-RENetの有効性を胸部X線(CoV-Healthy-6k,CoV- NonCoV-10k,CoV-NonCo V-15k)の3種類のデータセットを用いて評価した。 提案したCB-STM-RENetと既存の技術との比較により,健康と他の種類の胸部感染症の鑑別において高い性能を示した。 CB-STM-RENetはこれらの3つのデータセットで最高のパフォーマンスを提供する。 良好な検出率(97%)と高い精度(93%)は,感染症の診断に適応できることが示唆された。 テストコードはhttps://github.com/P RLAB21/COVID-19-Dete ction-System-using-C hest-X-Ray-Imagesで公開されている。

COVID-19 is a highly contagious respiratory infection that has affected a large population across the world and continues with its devastating consequences. It is imperative to detect COVID-19 at the earliest to limit the span of infection. In this work, a new classification technique CB-STM-RENet based on deep Convolutional Neural Network (CNN) and Channel Boosting is proposed for the screening of COVID-19 in chest X-Rays. In this connection, to learn the COVID-19 specific radiographic patterns, a new convolution block based on split-transform-merg e (STM) is developed. This new block systematically incorporates region and edge-based operations at each branch to capture the diverse set of features at various levels, especially those related to region homogeneity, textural variations, and boundaries of the infected region. The learning and discrimination capability of the proposed CNN architecture is enhanced by exploiting the Channel Boosting idea that concatenates the auxiliary channels along with the original channels. The auxiliary channels are generated from the pre-trained CNNs using Transfer Learning. The effectiveness of the proposed technique CB-STM-RENet is evaluated on three different datasets of chest X-Rays namely CoV-Healthy-6k, CoV-NonCoV-10k, and CoV-NonCoV-15k. The performance comparison of the proposed CB-STM-RENet with the existing techniques exhibits high performance both in discriminating COVID-19 chest infections from Healthy, as well as, other types of chest infections. CB-STM-RENet provides the highest performance on all these three datasets; especially on the stringent CoV-NonCoV-15k dataset. The good detection rate (97%), and high precision (93%) of the proposed technique suggest that it can be adapted for the diagnosis of COVID-19 infected patients. The test code is available at https://github.com/P RLAB21/COVID-19-Dete ction-System-using-C hest-X-Ray-Images.
翻訳日:2021-05-16 20:56:53 公開日:2020-12-17
# (参考訳) 胸部X線画像から解釈可能な肺癌スコーリングモデルの自動生成 [全文訳有]

Automatic Generation of Interpretable Lung Cancer Scoring Models from Chest X-Ray Images ( http://arxiv.org/abs/2012.05447v2 )

ライセンス: CC BY 4.0
Michael J. Horry, Subrata Chakraborty, Biswajeet Pradhan, Manoranjan Paul, Douglas P. S. Gomes, Anwaar Ul-Haq(参考訳) 肺癌は、がんが世界中で最も多い死因であり、早期発見が患者の予後の鍵である。 多くの研究が、機械学習、特に深層学習は、肺がんの自動診断に有効であることを実証しているが、これらの技術は、まだ臨床で承認され、医療コミュニティによって採用されていない。 この分野のほとんどの研究は、人工放射線学的第二読取を提供するための結節検出の狭いタスクに焦点を当てている。 代わりに,胸部X線画像から肺がんに関連する幅広い病態を,大規模なデータセットで訓練されたコンピュータビジョンモデルを用いて抽出することに焦点を当てた。 次に、肺癌の悪性度メタデータを提供する独立した、より小さなデータセットに対する最適な意思決定ツリーのセットを見つける。 この小さな推論データセットでは, 感度と特異度はそれぞれ85%, 75%であり, 正の予測値は85%であり, 人体放射線技師の性能に匹敵する。 さらに、本手法により作成された決定木は、臨床応用可能な多変量肺癌スコアリングおよび診断モデルへの医療専門家による改良の出発点とみなすことができる。

Lung cancer is the leading cause of cancer death worldwide with early detection being the key to a positive patient prognosis. Although a multitude of studies have demonstrated that machine learning, and particularly deep learning, techniques are effective at automatically diagnosing lung cancer, these techniques have yet to be clinically approved and adopted by the medical community. Most research in this field is focused on the narrow task of nodule detection to provide an artificial radiological second reading. We instead focus on extracting, from chest X-ray images, a wider range of pathologies associated with lung cancer using a computer vision model trained on a large dataset. We then find the set of best fit decision trees against an independent, smaller dataset for which lung cancer malignancy metadata is provided. For this small inferencing dataset, our best model achieves sensitivity and specificity of 85% and 75% respectively with a positive predictive value of 85% which is comparable to the performance of human radiologists. Furthermore, the decision trees created by this method may be considered as a starting point for refinement by medical experts into clinically usable multi-variate lung cancer scoring and diagnostic models.
翻訳日:2021-05-15 23:10:10 公開日:2020-12-17
# (参考訳) structured gromov-wasserstein barycentersによる学習グラフ [全文訳有]

Learning Graphons via Structured Gromov-Wasserstein Barycenters ( http://arxiv.org/abs/2012.05644v2 )

ライセンス: CC BY 4.0
Hongteng Xu, Dixin Luo, Lawrence Carin, Hongyuan Zha(参考訳) 無限次元空間で定義され任意の大きさのグラフを表すgraphonと呼ばれる非パラメトリックグラフモデルを学ぶための新しい原理的手法を提案する。 グラトンの理論による弱正則補題に基づいて、ステップ関数を利用してグラトンを近似する。 グラノンの切断距離は、ステップ関数のグロモフ・ワッサーシュタイン距離に緩和可能であることを示す。 したがって、基礎となるグラフによって生成されるグラフの集合を考えると、対応するステップ函数は与えられたグラフのグロモフ=ヴァッサーシュタインバリ中心として学習する。 さらに,基本アルゴリズムである$e.g.$,学習グラフの連続性を保証するための平滑化gromov-wasserstein barycenter,および複数の構造化グラフを学ぶための混合gromov-wasserstein barycenterのいくつかの拡張と拡張を開発した。 提案手法は, 従来の最先端手法の欠点を克服し, 合成データと実データの両方でそれを上回る。 コードはhttps://github.com/H ongtengXu/SGWB-Graph onで公開されている。

We propose a novel and principled method to learn a nonparametric graph model called graphon, which is defined in an infinite-dimensional space and represents arbitrary-size graphs. Based on the weak regularity lemma from the theory of graphons, we leverage a step function to approximate a graphon. We show that the cut distance of graphons can be relaxed to the Gromov-Wasserstein distance of their step functions. Accordingly, given a set of graphs generated by an underlying graphon, we learn the corresponding step function as the Gromov-Wasserstein barycenter of the given graphs. Furthermore, we develop several enhancements and extensions of the basic algorithm, $e.g.$, the smoothed Gromov-Wasserstein barycenter for guaranteeing the continuity of the learned graphons and the mixed Gromov-Wasserstein barycenters for learning multiple structured graphons. The proposed approach overcomes drawbacks of prior state-of-the-art methods, and outperforms them on both synthetic and real-world data. The code is available at https://github.com/H ongtengXu/SGWB-Graph on.
翻訳日:2021-05-15 16:18:58 公開日:2020-12-17
# 関連遊びの視線と逐次的合理性

Hindsight and Sequential Rationality of Correlated Play ( http://arxiv.org/abs/2012.05874v2 )

ライセンス: Link先を確認
Dustin Morrill, Ryan D'Orazio, Reca Sarfati, Marc Lanctot, James R. Wright, Amy Greenwald, Michael Bowling(参考訳) 2人のプレイヤーによるゼロサムゲーム解決とゲームの成功によって、ゲームにおける人工知能の作業は、均衡ベースの戦略を生み出すアルゴリズムにますます焦点が当てられている。 しかし、このアプローチは、一般シュームゲームにおける有能なプレイヤーや2人以上のプレイヤーに対して、2人のプレイヤーがゼロシュームゲームよりも効果的ではない。 魅力的な選択肢は、修正された動作で達成できたことに対して、後見の強いパフォーマンスを保証する適応アルゴリズムを検討することである。 このアプローチはまた、ゲーム理論的な分析につながるが、均衡におけるエージェントの行動の因子ではなく、共同学習のダイナミクスから生じる相関プレイにおいて生じる。 我々は,学習の隠れた合理的な枠組みを,逐次的意思決定の場面で開発し,提唱する。 この目的のために、我々は広範形式のゲームにおける平衡と偏差の型を再検討し、過去の誤解をより完全に理解し解決する。 我々は,文献における各種類の平衡の強さと弱さを示す一連の例を示し,他のすべての概念に従わないことを証明した。 この調査の行は、反実的後悔最小化(CFR)ファミリーのアルゴリズムに対応する偏差と平衡のクラスの定義において、文学における他のすべてのものと関係している。 cfrをより詳細に調べると、後見評価に自然に適用される方法で逐次合理性を拡張する相関遊びにおける合理性の新しい再帰的な定義がもたらされる。

Driven by recent successes in two-player, zero-sum game solving and playing, artificial intelligence work on games has increasingly focused on algorithms that produce equilibrium-based strategies. However, this approach has been less effective at producing competent players in general-sum games or those with more than two players than in two-player, zero-sum games. An appealing alternative is to consider adaptive algorithms that ensure strong performance in hindsight relative to what could have been achieved with modified behavior. This approach also leads to a game-theoretic analysis, but in the correlated play that arises from joint learning dynamics rather than factored agent behavior at equilibrium. We develop and advocate for this hindsight rationality framing of learning in general sequential decision-making settings. To this end, we re-examine mediated equilibrium and deviation types in extensive-form games, thereby gaining a more complete understanding and resolving past misconceptions. We present a set of examples illustrating the distinct strengths and weaknesses of each type of equilibrium in the literature, and prove that no tractable concept subsumes all others. This line of inquiry culminates in the definition of the deviation and equilibrium classes that correspond to algorithms in the counterfactual regret minimization (CFR) family, relating them to all others in the literature. Examining CFR in greater detail further leads to a new recursive definition of rationality in correlated play that extends sequential rationality in a way that naturally applies to hindsight evaluation.
翻訳日:2021-05-15 06:14:23 公開日:2020-12-17
# (参考訳) 単一衛星画像からのストリートビューパノラマ映像合成 [全文訳有]

Street-view Panoramic Video Synthesis from a Single Satellite Image ( http://arxiv.org/abs/2012.06628v2 )

ライセンス: CC BY 4.0
Zuoyue Li, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys(参考訳) 本研究では,1つの衛星画像とカメラ軌道から時間的および幾何学的に一貫したストリートビューパノラマ映像を合成する方法を提案する。 既存のクロスビュー合成アプローチは画像にフォーカスしているが、このような場合のビデオ合成はまだ十分に注目されていない。 単一画像合成アプローチは、ビデオの重要な特性である時間的一貫性が欠如しているため、ビデオ合成には適していない。 この目的のために,我々は3dポイントクラウド表現を明示的に作成し,衛星画像から推定した幾何学的シーン構成を反映したフレーム間の密接な3d-2d対応を維持する。 我々は,セマンティクスとクラス毎の潜在ベクトルからポイントクラウドを色分けするために,2つの時間ガラスモジュールを備えたカスケードネットワークアーキテクチャを実装した。 生成したストリートビュービデオフレームは3次元の幾何学的シーン構造に従属し,時間的一貫性を維持する。 定性的かつ定量的な実験は、時間的あるいは幾何学的整合性に欠ける他の最先端のクロスビュー合成手法よりも優れた結果を示す。 私たちの知る限りでは、クロスビュー画像をビデオに合成する最初の作品です。

We present a novel method for synthesizing both temporally and geometrically consistent street-view panoramic video from a given single satellite image and camera trajectory. Existing cross-view synthesis approaches focus more on images, while video synthesis in such a case has not yet received enough attention. Single image synthesis approaches are not well suited for video synthesis since they lack temporal consistency which is a crucial property of videos. To this end, our approach explicitly creates a 3D point cloud representation of the scene and maintains dense 3D-2D correspondences across frames that reflect the geometric scene configuration inferred from the satellite view. We implement a cascaded network architecture with two hourglass modules for successive coarse and fine generation for colorizing the point cloud from the semantics and per-class latent vectors. By leveraging computed correspondences, the produced street-view video frames adhere to the 3D geometric scene structure and maintain temporal consistency. Qualitative and quantitative experiments demonstrate superior results compared to other state-of-the-art cross-view synthesis approaches that either lack temporal or geometric consistency. To the best of our knowledge, our work is the first work to synthesize cross-view images to video.
翻訳日:2021-05-11 04:35:59 公開日:2020-12-17
# D$^2$IM-Net: 単一画像から詳細な遠方界を学習する

D$^2$IM-Net: Learning Detail Disentangled Implicit Fields from Single Images ( http://arxiv.org/abs/2012.06650v2 )

ライセンス: Link先を確認
Manyi Li, Hao Zhang(参考訳) 地形形状と表面特徴の両方を含む入力画像から幾何学的詳細を復元することを目的とした,最初の単一ビュー3D再構成ネットワークを提案する。 私たちのキーとなるアイデアは、粗い3D形状を表す暗黙のフィールドと細部をキャプチャするフィールドの2つの機能からなる、細部が絡み合った再構築をネットワークに教えることです。 入力画像が与えられた場合、D$^2$IM-Netと呼ばれるネットワークは、これをグローバルとローカルの2つのデコーダにエンコードする。 ベースデコーダは、大域的特徴を用いて、粗い暗黙のフィールドを再構築する一方、詳細デコーダは、局所的な特徴から、捕獲対象の前後に定義された2つの変位マップを再構成する。 最後の3D再構成は、ベース形状と変位マップの融合であり、3つの損失は、新しいラプラシアン項による粗い形状、全体構造、表面の細部を回復させる。

We present the first single-view 3D reconstruction network aimed at recovering geometric details from an input image which encompass both topological shape structures and surface features. Our key idea is to train the network to learn a detail disentangled reconstruction consisting of two functions, one implicit field representing the coarse 3D shape and the other capturing the details. Given an input image, our network, coined D$^2$IM-Net, encodes it into global and local features which are respectively fed into two decoders. The base decoder uses the global features to reconstruct a coarse implicit field, while the detail decoder reconstructs, from the local features, two displacement maps, defined over the front and back sides of the captured object. The final 3D reconstruction is a fusion between the base shape and the displacement maps, with three losses enforcing the recovery of coarse shape, overall structure, and surface details via a novel Laplacian term.
翻訳日:2021-05-11 02:56:45 公開日:2020-12-17
# 抽象概念の出現に関する学習的視点--音素の奇妙な場合

A learning perspective on the emergence of abstractions: the curious case of phonemes ( http://arxiv.org/abs/2012.07499v3 )

ライセンス: Link先を確認
Petar Milin, Benjamin V. Tucker, and Dagmar Divjak(参考訳) 本稿では,音声への露出から抽象電話が出現するかどうかを,様々なモデリング手法を用いて検証する。 言語訓練を受けていない言語ユーザにおける言語知識の発達に関する2つの反対原理を,メモリベースラーニング(MBL)とエラー補正ラーニング(ECL)で検証する。 一般化のプロセスは、言語学者が操作する抽象概念の基盤となり、言語抽象に類似した言語知識をMBLとECLが生み出すかどうかを調査した。 各モデルには1人の話者が生成した大量の事前処理音声が提示された。 モデルが学んだことの一貫性や安定性、そして抽象的なカテゴリを生み出す能力を評価しました。 どちらのモデルもこれらのテストに関して異なる。 ECL学習モデルは抽象化を学習でき、少なくとも携帯電話の在庫の少なくとも一部を入力から確実に識別できることを示す。

In the present paper we use a range of modeling techniques to investigate whether an abstract phone could emerge from exposure to speech sounds. We test two opposing principles regarding the development of language knowledge in linguistically untrained language users: Memory-Based Learning (MBL) and Error-Correction Learning (ECL). A process of generalization underlies the abstractions linguists operate with, and we probed whether MBL and ECL could give rise to a type of language knowledge that resembles linguistic abstractions. Each model was presented with a significant amount of pre-processed speech produced by one speaker. We assessed the consistency or stability of what the models have learned and their ability to give rise to abstract categories. Both types of models fare differently with regard to these tests. We show that ECL learning models can learn abstractions and that at least part of the phone inventory can be reliably identified from the input.
翻訳日:2021-05-08 14:45:50 公開日:2020-12-17
# (参考訳) ドメイン適応意味セグメンテーションのためのクロスドメイングルーピングとアライメント [全文訳有]

Cross-Domain Grouping and Alignment for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2012.08226v2 )

ライセンス: CC BY 4.0
Minsu Kim, Sunghun Joung, Seungryong Kim, JungIn Park, Ig-Jae Kim, Kwanghoon Sohn(参考訳) deep convolutional neural network(cnns)内のソースドメインとターゲットドメインにセマンティクスセグメンテーションネットワークを適用する既存の技術では、グローバルあるいはカテゴリ対応の方法で、2つのドメインのすべてのサンプルを処理する。 彼らは対象ドメイン自体や推定カテゴリ内のクラス間変異を考慮せず、マルチモーダルデータ分布を持つドメインをエンコードする制限を提供する。 この制限を克服するために,学習可能なクラスタリングモジュールと,クロスドメイングルーピングとアライメントと呼ばれる新しいドメイン適応フレームワークを導入する。 ソースドメインの正確なセグメンテーション能力を忘れずにドメインのアライメントを最大化する目的で、サンプルをクラスタリングするために、2つの損失関数、特にクラスタ間のセマンティック一貫性と直交性を促進するために提案する。 また,従来の方法の他の限界であるクラス不均衡問題を解くために損失も提示する。 実験の結果,提案手法はセマンティックセグメンテーションにおける適応性能を継続的に向上し,ドメイン適応設定における最先端性よりも優れていた。

Existing techniques to adapt semantic segmentation networks across the source and target domains within deep convolutional neural networks (CNNs) deal with all the samples from the two domains in a global or category-aware manner. They do not consider an inter-class variation within the target domain itself or estimated category, providing the limitation to encode the domains having a multi-modal data distribution. To overcome this limitation, we introduce a learnable clustering module, and a novel domain adaptation framework called cross-domain grouping and alignment. To cluster the samples across domains with an aim to maximize the domain alignment without forgetting precise segmentation ability on the source domain, we present two loss functions, in particular, for encouraging semantic consistency and orthogonality among the clusters. We also present a loss so as to solve a class imbalance problem, which is the other limitation of the previous methods. Our experiments show that our method consistently boosts the adaptation performance in semantic segmentation, outperforming the state-of-the-arts on various domain adaptation settings.
翻訳日:2021-05-08 06:13:23 公開日:2020-12-17
# (参考訳) SimpleChrome: 遺伝子発現予測のためのコンビネーションエフェクトのエンコード [全文訳有]

SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene Expression ( http://arxiv.org/abs/2012.08671v2 )

ライセンス: CC BY 4.0
Wei Cheng, Ghulam Murtaza, Aaron Wang(参考訳) 最先端のDNAシークエンシング技術の進歩により、ゲノムデータセットはユビキタスになった。 大規模データセットの出現はゲノム学、特に遺伝子制御の理解を深める大きな機会となる。 人体の各細胞は同じDNA情報を含んでいるが、遺伝子発現は遺伝子発現レベルとして知られる遺伝子をオンまたはオフすることでこれらの細胞の機能を制御する。 それぞれの遺伝子の発現レベルを制御する重要な因子は2つあり、(1)ヒストン修飾などの遺伝子制御は遺伝子発現を直接制御することができる。 2) 隣り合う遺伝子は機能的に関連し, 相互に相互作用し, 遺伝子発現のレベルにも影響を及ぼす。 前者は注意に基づくモデルを用いて対処しようと試みてきた。 しかし、第二の問題に対処するには、モデルに潜在的なすべての遺伝子情報を組み込む必要がある。 現代の機械学習とディープラーニングモデルは、中程度のサイズのデータに適用すると遺伝子発現信号をキャプチャできるが、データの高次元性によってデータの基盤となるシグナルを回復するのに苦労している。 この問題を解決するために,遺伝子に潜伏したヒストン修飾表現を学習する深層学習モデルSimpleChromeを提案する。 このモデルから得られた特徴は、遺伝子間相互作用と直接的遺伝子発現制御の組合せ効果をよりよく理解することを可能にする。 本論文は,下流モデルの予測能力を大幅に改善し,頑健で汎用的なニューラルネットワークを学習するための大規模データセットの必要性を大幅に緩和することを示す。 これらの結果はエピゲノミクス研究と薬物開発に直ちに下流効果をもたらす。

Due to recent breakthroughs in state-of-the-art DNA sequencing technology, genomics data sets have become ubiquitous. The emergence of large-scale data sets provides great opportunities for better understanding of genomics, especially gene regulation. Although each cell in the human body contains the same set of DNA information, gene expression controls the functions of these cells by either turning genes on or off, known as gene expression levels. There are two important factors that control the expression level of each gene: (1) Gene regulation such as histone modifications can directly regulate gene expression. (2) Neighboring genes that are functionally related to or interact with each other that can also affect gene expression level. Previous efforts have tried to address the former using Attention-based model. However, addressing the second problem requires the incorporation of all potentially related gene information into the model. Though modern machine learning and deep learning models have been able to capture gene expression signals when applied to moderately sized data, they have struggled to recover the underlying signals of the data due to the nature of the data's higher dimensionality. To remedy this issue, we present SimpleChrome, a deep learning model that learns the latent histone modification representations of genes. The features learned from the model allow us to better understand the combinatorial effects of cross-gene interactions and direct gene regulation on the target gene expression. The results of this paper show outstanding improvements on the predictive capabilities of downstream models and greatly relaxes the need for a large data set to learn a robust, generalized neural network. These results have immediate downstream effects in epigenomics research and drug development.
翻訳日:2021-05-07 06:50:20 公開日:2020-12-17
# ベイズ最適化における構成最適化の課題

Are we Forgetting about Compositional Optimisers in Bayesian Optimisation? ( http://arxiv.org/abs/2012.08240v2 )

ライセンス: Link先を確認
Antoine Grosnit, Alexander I. Cowen-Rivers, Rasul Tutunov, Ryan-Rhys Griffiths, Jun Wang, Haitham Bou-Ammar(参考訳) ベイズ最適化は、グローバル最適化のためのサンプル効率のよい方法論を提供する。 このフレームワークの中で重要な性能決定サブルーチンは、取得関数の最大化であり、取得関数は非凸であり、したがって最適化が非自明であるという事実に複雑である。 本稿では,取得関数を最大化するためのアプローチに関する包括的実証研究を行う。 加えて、人気獲得関数の新規かつ数学的に等価な合成形式を導出することにより、最大化タスクを構成最適化問題として再キャストし、この分野の広範な文献から恩恵を受けることができる。 合成最適化タスクとベイズマルクのタスクからなる3958個の個別実験に対して, 獲得関数の最大化に対する構成的アプローチの実証的利点を強調した。 獲得関数最大化サブルーチンの一般性を考えると、合成オプティマイザの採用はベイズ最適化が現在適用されているすべての領域で性能改善をもたらす可能性があると仮定する。

Bayesian optimisation presents a sample-efficient methodology for global optimisation. Within this framework, a crucial performance-determin ing subroutine is the maximisation of the acquisition function, a task complicated by the fact that acquisition functions tend to be non-convex and thus nontrivial to optimise. In this paper, we undertake a comprehensive empirical study of approaches to maximise the acquisition function. Additionally, by deriving novel, yet mathematically equivalent, compositional forms for popular acquisition functions, we recast the maximisation task as a compositional optimisation problem, allowing us to benefit from the extensive literature in this field. We highlight the empirical advantages of the compositional approach to acquisition function maximisation across 3958 individual experiments comprising synthetic optimisation tasks as well as tasks from Bayesmark. Given the generality of the acquisition function maximisation subroutine, we posit that the adoption of compositional optimisers has the potential to yield performance improvements across all domains in which Bayesian optimisation is currently being applied.
翻訳日:2021-05-07 05:34:30 公開日:2020-12-17
# 人間行動の起源における接地人工知能

Grounding Artificial Intelligence in the Origins of Human Behavior ( http://arxiv.org/abs/2012.08564v2 )

ライセンス: Link先を確認
Eleni Nisioti and Cl\'ement Moulin-Frier(参考訳) 人工知能(AI)の最近の進歩は、オープンエンドのスキルのレパートリーを獲得できるエージェントの探求を復活させた。 しかしながら、この能力は人間の知性の特徴と基本的に関係しているが、この分野での研究は、種の進化の過程で複雑な認知能力の出現を導く過程をほとんど考慮していない。 人間行動生態学(HBE)の研究は、人間の自然を特徴づける行動が、我々の生態学的ニッチの構造に大きな変化に対する適応的な反応としてどのように考えられるかを理解することを目指している。 本稿では,HBEの大きな仮説と近年の強化学習(RL)への貢献に基づく,オープンエンドスキル獲得における環境複雑性の役割を強調する枠組みを提案する。 このフレームワークは、この2つの分野の基本的なリンクを強調し、生態系の複雑さをブートストラップするフィードバックループを特定し、AI研究者にとって有望な研究方向を作成するために使用します。

Recent advances in Artificial Intelligence (AI) have revived the quest for agents able to acquire an open-ended repertoire of skills. However, although this ability is fundamentally related to the characteristics of human intelligence, research in this field rarely considers the processes that may have guided the emergence of complex cognitive capacities during the evolution of the species. Research in Human Behavioral Ecology (HBE) seeks to understand how the behaviors characterizing human nature can be conceived as adaptive responses to major changes in the structure of our ecological niche. In this paper, we propose a framework highlighting the role of environmental complexity in open-ended skill acquisition, grounded in major hypotheses from HBE and recent contributions in Reinforcement learning (RL). We use this framework to highlight fundamental links between the two disciplines, as well as to identify feedback loops that bootstrap ecological complexity and create promising research directions for AI researchers.
翻訳日:2021-05-07 05:26:54 公開日:2020-12-17
# (参考訳) ドメイン適応人物再同定におけるサンプル不確かさの活用 [全文訳有]

Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2012.08733v2 )

ライセンス: CC BY 4.0
Kecheng Zheng, Cuiling Lan, Wenjun Zeng, Zhizheng Zhang and Zheng-Jun Zha(参考訳) unsupervised domain adaptive (uda) person re-identification (reid) アプローチの多くはクラスタリングに基づく擬似ラベル予測と特徴の微調整を組み合わせたものである。 しかし、ドメインギャップのため、擬似ラベルは必ずしも信頼性がなく、ノイズ/誤りラベルが存在する。 これは機能表現学習を誤解し、パフォーマンスを低下させる。 本稿では,各試料に割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を軽減し,ノイズサンプルの寄与を抑制することを提案する。 平均教師法を併用したベースラインフレームワークの構築と,さらに対照的な損失を生じさせる。 我々は,クラスタリングによって間違った擬似ラベルを持つサンプルが,平均教師モデルと学生モデルの出力との整合性が弱いことを観察した。 そこで本研究では,サンプルの擬似ラベルの信頼性評価に不確実性(一貫性レベルによって測定される)を活用し,サンプルごとのID分類損失,三重項損失,コントラスト損失など,様々なReID損失に再重み付けする不確実性を導入することを提案する。 不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。

Many unsupervised domain adaptive (UDA) person re-identification (ReID) approaches combine clustering-based pseudo-label prediction with feature fine-tuning. However, because of domain gap, the pseudo-labels are not always reliable and there are noisy/incorrect labels. This would mislead the feature representation learning and deteriorate the performance. In this paper, we propose to estimate and exploit the credibility of the assigned pseudo-label of each sample to alleviate the influence of noisy labels, by suppressing the contribution of noisy samples. We build our baseline framework using the mean teacher method together with an additional contrastive loss. We have observed that a sample with a wrong pseudo-label through clustering in general has a weaker consistency between the output of the mean teacher model and the student model. Based on this finding, we propose to exploit the uncertainty (measured by consistency levels) to evaluate the reliability of the pseudo-label of a sample and incorporate the uncertainty to re-weight its contribution within various ReID losses, including the identity (ID) classification loss per sample, the triplet loss, and the contrastive loss. Our uncertainty-guided optimization brings significant improvement and achieves the state-of-the-art performance on benchmark datasets.
翻訳日:2021-05-06 11:49:34 公開日:2020-12-17
# フェイクニュースにおけるテーマコヒーレンスの検討

Exploring Thematic Coherence in Fake News ( http://arxiv.org/abs/2012.09118v2 )

ライセンス: Link先を確認
Martins Samuel Dogo, Deepak P, Anna Jurek-Loughrey(参考訳) 偽ニュースの拡散は依然として深刻な世界的な問題であり、理解と削減が最重要課題である。 偽りの物語と真実の物語を区別する一つの方法は、その一貫性を分析することである。 本研究は,インターネット上で共有されるクロスドメインニュースのコヒーレンスを分析するためのトピックモデルの利用について検討する。 7つのクロスドメインデータセットによる実験結果から、偽ニュースはその開始文と残りの文との主題的なずれが大きいことが示されている。

The spread of fake news remains a serious global issue; understanding and curtailing it is paramount. One way of differentiating between deceptive and truthful stories is by analyzing their coherence. This study explores the use of topic models to analyze the coherence of cross-domain news shared online. Experimental results on seven cross-domain datasets demonstrate that fake news shows a greater thematic deviation between its opening sentences and its remainder.
翻訳日:2021-05-03 03:00:42 公開日:2020-12-17
# (参考訳) ニューラルマッチングとファセット要約を用いた精密医学のための文献検索 [全文訳有]

Literature Retrieval for Precision Medicine with Neural Matching and Faceted Summarization ( http://arxiv.org/abs/2012.09355v1 )

ライセンス: CC BY 4.0
Jiho Noh and Ramakanth Kavuluru(参考訳) 精度医学(PM)のための情報検索(IR)は、患者を特徴づける複数の証拠を探すことを伴うことが多い。 これは典型的には、患者に適用される少なくとも状態の名前と遺伝的変異を含む。 その他の要因として、人口属性、同義性、社会的決定性などがある。 このように、検索問題は、しばしばアドホック検索として定式化されるが、複数のファセット(例えば、病気、突然変異)を組み込む必要がある。 本稿では,このような検索シナリオに対して,ニューラルクエリ文書マッチングとテキスト要約を組み合わせた文書再分類手法を提案する。 アーキテクチャは基本的なBERTモデルに基づいており、3つの特定のコンポーネントを並べ替えています。 document-query matching (b) キーワード抽出と(c)。 facet-conditioned abstractive summarization b) と (c) の結果は、候補者の文書を本質的に簡潔な要約に変換するために使用され、これは手元のクエリと比較して関連度スコアを計算することができる。 コンポーネント(a)は、クエリの候補文書のマッチングスコアを直接生成する。 完全なアーキテクチャは、文書クエリマッチングの補完的なポテンシャルと、PMファセットに沿った要約に基づく新しい文書変換アプローチの恩恵を受ける。 NIST の TREC-PM トラックデータセット (2017-2019) を用いて評価した結果,本モデルが最先端の性能を達成することが示された。 再現性を高めるために、私たちのコードはここで利用可能です。

Information retrieval (IR) for precision medicine (PM) often involves looking for multiple pieces of evidence that characterize a patient case. This typically includes at least the name of a condition and a genetic variation that applies to the patient. Other factors such as demographic attributes, comorbidities, and social determinants may also be pertinent. As such, the retrieval problem is often formulated as ad hoc search but with multiple facets (e.g., disease, mutation) that may need to be incorporated. In this paper, we present a document reranking approach that combines neural query-document matching and text summarization toward such retrieval scenarios. Our architecture builds on the basic BERT model with three specific components for reranking: (a). document-query matching (b). keyword extraction and (c). facet-conditioned abstractive summarization. The outcomes of (b) and (c) are used to essentially transform a candidate document into a concise summary that can be compared with the query at hand to compute a relevance score. Component (a) directly generates a matching score of a candidate document for a query. The full architecture benefits from the complementary potential of document-query matching and the novel document transformation approach based on summarization along PM facets. Evaluations using NIST's TREC-PM track datasets (2017--2019) show that our model achieves state-of-the-art performance. To foster reproducibility, our code is made available here: https://github.com/b ionlproc/text-summ-f or-doc-retrieval.
翻訳日:2021-05-03 00:34:49 公開日:2020-12-17
# (参考訳) フリーフォームテキストの自動処理による大学生への影響評価 [全文訳有]

Assessing COVID-19 Impacts on College Students via Automated Processing of Free-form Text ( http://arxiv.org/abs/2012.09369v1 )

ライセンス: CC BY 4.0
Ravi Sharma, Sri Divya Pagadala, Pratool Bharti, Sriram Chellappan, Trine Schmidt and Raj Goyal(参考訳) 本稿では,covid-19が大学生に与える影響を,学生が生成した自由形式のテキストを処理して評価する実験結果について報告する。 フリーテキスト(free-form texts)とは、大学生(米国大学4年中)が投稿したテキスト入力を、メンタルヘルスの評価と改善に特化したアプリを通じて意味する。 1451人の学生が4ヶ月以上(前と後)に収集した9000以上のテキストからなるデータセットを用いて、NLP技術を確立し、(a)学生の変化に最も関心を持つトピックが、(b)学生が前と後の各トピックで示す感情がどのように評価されるかを評価する。 私たちの分析によると、新型コロナウイルス(COVID-19)後、学生にとって教育のようなトピックは明らかに重要ではなくなり、健康はより傾向が増した。 また、新型コロナウイルス(covid-19)後の学生のネガティブな感情は、covid-19以前のものよりもずっと高かった。 本研究は,大学管理者,教師,親,精神保健カウンセラーなど,さまざまな分野の高等教育政策立案者に与える影響を期待する。

In this paper, we report experimental results on assessing the impact of COVID-19 on college students by processing free-form texts generated by them. By free-form texts, we mean textual entries posted by college students (enrolled in a four year US college) via an app specifically designed to assess and improve their mental health. Using a dataset comprising of more than 9000 textual entries from 1451 students collected over four months (split between pre and post COVID-19), and established NLP techniques, a) we assess how topics of most interest to student change between pre and post COVID-19, and b) we assess the sentiments that students exhibit in each topic between pre and post COVID-19. Our analysis reveals that topics like Education became noticeably less important to students post COVID-19, while Health became much more trending. We also found that across all topics, negative sentiment among students post COVID-19 was much higher compared to pre-COVID-19. We expect our study to have an impact on policy-makers in higher education across several spectra, including college administrators, teachers, parents, and mental health counselors.
翻訳日:2021-05-03 00:17:27 公開日:2020-12-17
# (参考訳) masker: 信頼できるテキスト分類のためのマスク付きキーワード正規化 [全文訳有]

MASKER: Masked Keyword Regularization for Reliable Text Classification ( http://arxiv.org/abs/2012.09392v1 )

ライセンス: CC BY 4.0
Seung Jun Moon, Sangwoo Mo, Kimin Lee, Jaeho Lee, Jinwoo Shin(参考訳) 事前訓練された言語モデルは、感情分析、自然言語推論、意味的なテキスト類似性など、様々なテキスト分類タスクにおいて最先端の精度を達成した。 しかし、微調整テキスト分類器の信頼性は、しばしば見当たらない性能基準である。 例えば、オフ・オブ・ディストリビューション(OOD)サンプル(トレーニング分布から遠く離れている)を検出したり、ドメインシフトに対して堅牢なモデルが欲しい場合もあります。 信頼性に対する1つの大きな障害は、コンテキスト全体を見るのではなく、限られた数のキーワードでモデルの過度な信頼関係にあると主張する。 特に, (a) OOD サンプルは分布内キーワードを含むことが多いが, (b) クロスドメインサンプルは必ずしもキーワードを含むとは限らない。 そこで本研究では,文脈に基づく予測を容易にする簡易かつ効果的な微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。 maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。 各種事前学習言語モデル(BERT,RoBERTa,ALBERT )に適用した場合,MASKERは分類精度を低下させることなくOODの検出とドメイン間一般化を改善する。 コードはhttps://github.com/a linlab/MASKERで入手できる。

Pre-trained language models have achieved state-of-the-art accuracies on various text classification tasks, e.g., sentiment analysis, natural language inference, and semantic textual similarity. However, the reliability of the fine-tuned text classifiers is an often underlooked performance criterion. For instance, one may desire a model that can detect out-of-distribution (OOD) samples (drawn far from training distribution) or be robust against domain shifts. We claim that one central obstacle to the reliability is the over-reliance of the model on a limited number of keywords, instead of looking at the whole context. In particular, we find that (a) OOD samples often contain in-distribution keywords, while (b) cross-domain samples may not always contain keywords; over-relying on the keywords can be problematic for both cases. In light of this observation, we propose a simple yet effective fine-tuning method, coined masked keyword regularization (MASKER), that facilitates context-based prediction. MASKER regularizes the model to reconstruct the keywords from the rest of the words and make low-confidence predictions without enough context. When applied to various pre-trained language models (e.g., BERT, RoBERTa, and ALBERT), we demonstrate that MASKER improves OOD detection and cross-domain generalization without degrading classification accuracy. Code is available at https://github.com/a linlab/MASKER.
翻訳日:2021-05-03 00:06:30 公開日:2020-12-17
# (参考訳) オンラインマシン学習アドバイスを用いた計量タスクシステム [全文訳有]

Metrical Task Systems with Online Machine Learned Advice ( http://arxiv.org/abs/2012.09394v1 )

ライセンス: CC BY 4.0
Kevin Rao(参考訳) 機械学習アルゴリズムは、既存のデータに基づいて、将来の正確な予測を行うように設計されているが、オンラインアルゴリズムは、将来を知らずに、いくつかのパフォーマンス指標(通常、競争比率)に縛り付けようとしている。 lykourisとvassilvitskiiは、オンラインアルゴリズムを機械学習予測器で拡張することで、予測器が適当に正確である限り、競争比が確実に低下することを示した。 そこで本稿では,boodin,linial,saks らによって提起されたオンライン計量タスクシステム問題に対して,動的システム処理タスクの汎用モデルとして,この概念を適用した。 我々は、$n$タスク上の一様タスクシステムの特定のクラスに焦点を当て、最良の決定論的アルゴリズムは$O(n)$競争であり、最良のランダム化アルゴリズムは$O(\log n)$競争である。 オンラインのアルゴリズムで学習したオラクルに絶対的な予測誤差を$\eta_0$で有界でアクセスすることで、メートル法タスクシステムの一様問題に対して$\Theta(\min(\sqrt{\eta_0}, \log n))$の競合アルゴリズムを構築する。 また、任意のランダム化アルゴリズムの競合比に対して、$\Theta(\log \sqrt{\eta_0})$低い境界を与える。

Machine learning algorithms are designed to make accurate predictions of the future based on existing data, while online algorithms seek to bound some performance measure (typically the competitive ratio) without knowledge of the future. Lykouris and Vassilvitskii demonstrated that augmenting online algorithms with a machine learned predictor can provably decrease the competitive ratio under as long as the predictor is suitably accurate. In this work we apply this idea to the Online Metrical Task System problem, which was put forth by Borodin, Linial, and Saks as a general model for dynamic systems processing tasks in an online fashion. We focus on the specific class of uniform task systems on $n$ tasks, for which the best deterministic algorithm is $O(n)$ competitive and the best randomized algorithm is $O(\log n)$ competitive. By giving an online algorithms access to a machine learned oracle with absolute predictive error bounded above by $\eta_0$, we construct a $\Theta(\min(\sqrt{\eta_0}, \log n))$ competitive algorithm for the uniform case of the metrical task systems problem. We also give a $\Theta(\log \sqrt{\eta_0})$ lower bound on the competitive ratio of any randomized algorithm.
翻訳日:2021-05-02 23:48:21 公開日:2020-12-17
# (参考訳) 組成制約下での確率的組成勾配降下 [全文訳有]

Stochastic Compositional Gradient Descent under Compositional constraints ( http://arxiv.org/abs/2012.09400v1 )

ライセンス: CC BY 4.0
Srujan Teja Thomdapu, Harshvardhan, Ketan Rajawat(参考訳) 本研究は、目的関数と制約関数が凸であり、確率関数の合成として表現される確率的最適化問題を制約した。 この問題は、公正な分類、公平な回帰、およびキューシステムの設計という文脈で生じる。 特に興味深いのは、オラクルが構成関数の確率的勾配を提供する大規模な設定であり、その目的は、オラクルへの最小限の呼び出しで問題を解決することである。 この問題は、公平な分類/回帰とキューシステムの設計に生じる。 構成形式により、オラクルによって提供される確率勾配は、目的あるいは制約勾配の偏りのない見積もりを生じさせない。 代わりに, 内関数評価を追跡することで近似勾配を構築し, 準次saddle pointアルゴリズムを導出する。 提案アルゴリズムは最適かつ実現可能な解をほぼ確実に見つけることが保証されている。 さらに、提案アルゴリズムでは、制約違反をゼロにしつつ、$\epsilon$-approxima te の最適点を得るために$\mathcal{o}(1/\epsilon^4)$ データサンプルが必要であることも確認する。 その結果、制約のない問題に対する確率的組成勾配降下法のサンプル複雑性が一致し、制約付き設定の最もよく知られたサンプル複雑性結果が改善される。 提案アルゴリズムの有効性は、公平な分類と公平な回帰問題の両方で検証される。 数値計算の結果,提案アルゴリズムは収束率の観点から最先端のアルゴリズムよりも優れていた。

This work studies constrained stochastic optimization problems where the objective and constraint functions are convex and expressed as compositions of stochastic functions. The problem arises in the context of fair classification, fair regression, and the design of queuing systems. Of particular interest is the large-scale setting where an oracle provides the stochastic gradients of the constituent functions, and the goal is to solve the problem with a minimal number of calls to the oracle. The problem arises in fair classification/regre ssion and in the design of queuing systems. Owing to the compositional form, the stochastic gradients provided by the oracle do not yield unbiased estimates of the objective or constraint gradients. Instead, we construct approximate gradients by tracking the inner function evaluations, resulting in a quasi-gradient saddle point algorithm. We prove that the proposed algorithm is guaranteed to find the optimal and feasible solution almost surely. We further establish that the proposed algorithm requires $\mathcal{O}(1/\epsilon^4)$ data samples in order to obtain an $\epsilon$-approxima te optimal point while also ensuring zero constraint violation. The result matches the sample complexity of the stochastic compositional gradient descent method for unconstrained problems and improves upon the best-known sample complexity results for the constrained settings. The efficacy of the proposed algorithm is tested on both fair classification and fair regression problems. The numerical results show that the proposed algorithm outperforms the state-of-the-art algorithms in terms of the convergence rate.
翻訳日:2021-05-02 23:35:09 公開日:2020-12-17
# (参考訳) 人工知能が3d頂点の重要性を命令 [全文訳有]

Artificial Intelligence ordered 3D vertex importance ( http://arxiv.org/abs/2012.10232v1 )

ライセンス: CC BY 4.0
Iva Vasic, Bata Vasic, and Zorica Nikolic(参考訳) 多次元ネットワークのランキング頂点は、決定の重要性の選択と決定を含む多くの研究分野において重要である。 いくつかの決定は他の決定よりも著しく重要であり、その重みの分類もまた不道徳である。 本稿では,3次元ネットワーク頂点の重み付けのための人工知能を用いた重み付け決定手法を新たに定義し,量子化インデックス(qim)と誤り訂正符号の変調に基づいて,既存の順序統計頂点抽出追跡アルゴリズム(osveta)を改善した。 本稿では,最新のニューラルネットワークの正確な予測手法をヒューリスティック手法に置き換え,統計的OSVETA基準によるネットワーク頂点の重要度決定の効率を大幅に向上させる手法を提案する。 新しい人工知能技術により、3dメッシュの定義が大幅に改善され、トポロジカルな特徴をより良く評価できる。 新たな手法により,安定頂点の定義精度が向上し,メッシュ頂点の削除確率が大幅に低下する。

Ranking vertices of multidimensional networks is crucial in many areas of research, including selecting and determining the importance of decisions. Some decisions are significantly more important than others, and their weight categorization is also imortant. This paper defines a completely new method for determining the weight decisions using artificial intelligence for importance ranking of three-dimensional network vertices, improving the existing Ordered Statistics Vertex Extraction and Tracking Algorithm (OSVETA) based on modulation of quantized indices (QIM) and error correction codes. The technique we propose in this paper offers significant improvements the efficiency of determination the importance of network vertices in relation to statistical OSVETA criteria, replacing heuristic methods with methods of precise prediction of modern neural networks. The new artificial intelligence technique enables a significantly better definition of the 3D meshes and a better assessment of their topological features. The new method contributions result in a greater precision in defining stable vertices, significantly reducing the probability of deleting mesh vertices.
翻訳日:2021-05-02 22:15:42 公開日:2020-12-17
# (参考訳) モーメントの変分法

The Variational Method of Moments ( http://arxiv.org/abs/2012.09422v1 )

ライセンス: CC BY 4.0
Andrew Bennett, Nathan Kallus(参考訳) 条件モーメント問題は、可観測性の観点から構造因果パラメータを記述するための強力な定式化である。 標準的なアプローチは、問題を限界モーメント条件の有限集合に還元し、最適に重み付けされたモーメントの一般化法(OWGMM)を適用することであるが、これは有限個のモーメントの特定を知っていなければならない。 OWGMMの変分極小修正により、条件モーメント問題に対する非常に一般的な推定器のクラスを定義し、このクラスはモーメントの変分法(VMM)と呼ばれ、無限個のモーメントを自然に制御できる。 我々は、カーネル法やニューラルネットワークに基づく複数のVMM推定器の詳細な理論的解析を行い、これらの推定器が完全条件モーメントモデルにおいて一貫性があり、漸近的に正常であり、半パラメトリック的に効率的である適切な条件を提供する。 これは、最適重み付けを組み込まず、漸近正規性を確立せず、半パラメトリック的に効率が良くない逆機械学習に基づく条件モーメント問題を解決する他の方法とは対照的である。

The conditional moment problem is a powerful formulation for describing structural causal parameters in terms of observables, a prominent example being instrumental variable regression. A standard approach is to reduce the problem to a finite set of marginal moment conditions and apply the optimally weighted generalized method of moments (OWGMM), but this requires we know a finite set of identifying moments, can still be inefficient even if identifying, or can be unwieldy and impractical if we use a growing sieve of moments. Motivated by a variational minimax reformulation of OWGMM, we define a very general class of estimators for the conditional moment problem, which we term the variational method of moments (VMM) and which naturally enables controlling infinitely-many moments. We provide a detailed theoretical analysis of multiple VMM estimators, including based on kernel methods and neural networks, and provide appropriate conditions under which these estimators are consistent, asymptotically normal, and semiparametrically efficient in the full conditional moment model. This is in contrast to other recently proposed methods for solving conditional moment problems based on adversarial machine learning, which do not incorporate optimal weighting, do not establish asymptotic normality, and are not semiparametrically efficient.
翻訳日:2021-05-02 20:43:15 公開日:2020-12-17
# (参考訳) Maximum EntropyはMaximum Likelihoodと競合する [全文訳有]

Maximum Entropy competes with Maximum Likelihood ( http://arxiv.org/abs/2012.09430v1 )

ライセンス: CC BY 4.0
A.E. Allahverdyan and N.H. Martirosyan(参考訳) 最大エントロピー(MAXENT)法は、未知の確率を推定するための便利な非パラメトリックツールを提供するため、理論的および応用機械学習に多くの応用がある。 この方法は確率的推論に対する統計物理学の大きな貢献である。 しかし、その妥当性の限界に対する体系的なアプローチは現在欠落している。 ここでは、ベイズ決定論においてMAXENTを研究する。 未知の確率に対してよく定義されたディリクレ密度が存在すると仮定し、様々な推定器の品質と適用性を決定するために平均カルバック・リーブラー距離(KL)を用いることができる。 これらは、様々なMAXENT制約の関連性を評価し、その一般的な適用性を確認し、MAXENTを以前のvizに様々な依存度を持つ推定器と比較することができる。 正規化された最大可能性(ML)とベイズ推定器。 MAXENTはスパースデータレジームに適用されるが、特定の種類の事前情報を必要とする。 特にMAXENTは、推定されたランダム量とその確率の間に事前のランク相関が存在することを仮定して、最適に正規化されたMLより優れている。

Maximum entropy (MAXENT) method has a large number of applications in theoretical and applied machine learning, since it provides a convenient non-parametric tool for estimating unknown probabilities. The method is a major contribution of statistical physics to probabilistic inference. However, a systematic approach towards its validity limits is currently missing. Here we study MAXENT in a Bayesian decision theory set-up, i.e. assuming that there exists a well-defined prior Dirichlet density for unknown probabilities, and that the average Kullback-Leibler (KL) distance can be employed for deciding on the quality and applicability of various estimators. These allow to evaluate the relevance of various MAXENT constraints, check its general applicability, and compare MAXENT with estimators having various degrees of dependence on the prior, viz. the regularized maximum likelihood (ML) and the Bayesian estimators. We show that MAXENT applies in sparse data regimes, but needs specific types of prior information. In particular, MAXENT can outperform the optimally regularized ML provided that there are prior rank correlations between the estimated random quantity and its probabilities.
翻訳日:2021-05-02 20:26:52 公開日:2020-12-17
# (参考訳) 機械学習による航空の環境影響低減を支援する [全文訳有]

Helping Reduce Environmental Impact of Aviation with Machine Learning ( http://arxiv.org/abs/2012.09433v1 )

ライセンス: CC BY 4.0
Ashish Kapoor(参考訳) 商業航空は気候変動への最大の貢献の1つである。 本稿では,飛行時間を短縮する解決策を検討することで,航空の環境への影響を低減することを提案する。 具体的には、まず風速予測の改善を検討し、飛行計画立案者がより効率的なルートを見つけるためにより良い情報を利用できるようにした。 第2に,風速予測の不確実性を考慮し,探索と搾取を最適に切り替えることで,目的地への最高速経路を探索する航空機のルーティング手法を提案する。

Commercial aviation is one of the biggest contributors towards climate change. We propose to reduce environmental impact of aviation by considering solutions that would reduce the flight time. Specifically, we first consider improving winds aloft forecast so that flight planners could use better information to find routes that are efficient. Secondly, we propose an aircraft routing method that seeks to find the fastest route to the destination by considering uncertainty in the wind forecasts and then optimally trading-off between exploration and exploitation.
翻訳日:2021-05-02 20:11:38 公開日:2020-12-17
# (参考訳) FG-Net:CorrelatedFea ture MiningとGeometric-Aware Modelingを活用した高速大規模LiDARポイントクラウド [全文訳有]

FG-Net: Fast Large-Scale LiDAR Point CloudsUnderstanding Network Leveraging CorrelatedFeature Mining and Geometric-Aware Modelling ( http://arxiv.org/abs/2012.09439v1 )

ライセンス: CC BY-SA 4.0
Kangcheng Liu, Zhi Gao, Feng Lin, and Ben M. Chen(参考訳) FG-Netは、1つのNVIDIA GTX 1080 GPUで正確かつリアルタイムなパフォーマンスを実現する、大規模なポイントクラウド理解のための一般的なディープラーニングフレームワークである。 まず,後続の高レベルタスクを容易にするために,新しいノイズ・アウトリアーフィルタリング法を考案した。 そこで本研究では,局所的特徴関係と幾何学的パターンを十分に活用できる,特徴マイニングと変形可能な畳み込みに基づく幾何認識モデルを用いた深層畳み込みニューラルネットワークを提案する。 効率の面では,計算コストとメモリ消費をそれぞれ削減するために,逆密度サンプリング操作と特徴ピラミッドに基づく残差学習戦略を提案する。 実世界の挑戦的データセットに関する大規模な実験は、我々のアプローチが精度と効率の点で最先端のアプローチより優れていることを示した。 また,本手法の一般化能力を示すために,弱教師付き転送学習も行った。

This work presents FG-Net, a general deep learning framework for large-scale point clouds understanding without voxelizations, which achieves accurate and real-time performance with a single NVIDIA GTX 1080 GPU. First, a novel noise and outlier filtering method is designed to facilitate subsequent high-level tasks. For effective understanding purpose, we propose a deep convolutional neural network leveraging correlated feature mining and deformable convolution based geometric-aware modelling, in which the local feature relationships and geometric patterns can be fully exploited. For the efficiency issue, we put forward an inverse density sampling operation and a feature pyramid based residual learning strategy to save the computational cost and memory consumption respectively. Extensive experiments on real-world challenging datasets demonstrated that our approaches outperform state-of-the-art approaches in terms of accuracy and efficiency. Moreover, weakly supervised transfer learning is also conducted to demonstrate the generalization capacity of our method.
翻訳日:2021-05-02 19:49:07 公開日:2020-12-17
# (参考訳) 樹木オートエンコーダを用いた談話構造の教師なし学習 [全文訳有]

Unsupervised Learning of Discourse Structures using a Tree Autoencoder ( http://arxiv.org/abs/2012.09446v1 )

ライセンス: CC BY 4.0
Patrick Huber and Giuseppe Carenini(参考訳) RSTやPDTBのような一般的な談話理論によって仮定された談話情報は、下流のNLPタスクの増加を改善し、重要な現実世界の応用と対話の肯定的な効果と相乗効果を示すことが示されている。 言論を取り入れる手法はますます洗練されていくが、強固で一般的な言論構造の必要性は、通常、厳密な数のドメインで小さなデータセットで訓練された現在の言論パーサーによって十分に満たされていない。 これにより、任意のタスクの予測がうるさいし、信頼できない。 結果として生じる、高品質で高品質な談話ツリーの欠如は、さらなる進歩に深刻な制限をもたらす。 この欠点を解消するために,潜在木誘導フレームワークを自動エンコーディング目的に拡張することにより,タスクに依存しない教師なし方式で木構造を生成する新しい手法を提案する。 提案手法は,構文解析,談話解析などの木構造的目的に適用可能である。 しかし,談話木を生成するのに特に難しいアノテーションプロセスのため,まず,より大きく多様な談話木バンクを生成する方法を開発した。 本稿では,複数の領域における自然文の一般的な木構造を推定し,様々なタスクで有望な結果を示す。

Discourse information, as postulated by popular discourse theories, such as RST and PDTB, has been shown to improve an increasing number of downstream NLP tasks, showing positive effects and synergies of discourse with important real-world applications. While methods for incorporating discourse become more and more sophisticated, the growing need for robust and general discourse structures has not been sufficiently met by current discourse parsers, usually trained on small scale datasets in a strictly limited number of domains. This makes the prediction for arbitrary tasks noisy and unreliable. The overall resulting lack of high-quality, high-quantity discourse trees poses a severe limitation to further progress. In order the alleviate this shortcoming, we propose a new strategy to generate tree structures in a task-agnostic, unsupervised fashion by extending a latent tree induction framework with an auto-encoding objective. The proposed approach can be applied to any tree-structured objective, such as syntactic parsing, discourse parsing and others. However, due to the especially difficult annotation process to generate discourse trees, we initially develop a method to generate larger and more diverse discourse treebanks. In this paper we are inferring general tree structures of natural text in multiple domains, showing promising results on a diverse set of tasks.
翻訳日:2021-05-02 19:19:40 公開日:2020-12-17
# (参考訳) 効率的な局所探索によるバランスの取れたグラフエッジ分割の強化 [全文訳有]

Enhancing Balanced Graph Edge Partition with Effective Local Search ( http://arxiv.org/abs/2012.09451v1 )

ライセンス: CC0 1.0
Zhenyu Guo, Mingyu Xiao, Yi Zhou, Dongxiang Zhang, Kian-Lee Tan(参考訳) グラフパーティションは、並列グラフ処理システムにおいて、ワークロードのバランスを達成し、ジョブ完了時間を短縮するための重要なコンポーネントである。 様々なパーティション戦略の中で、エッジパーティションは頂点パーティションよりもパワーローグラフの方が有望な性能を示しており、既存のグラフシステムではデフォルトパーティション戦略として広く採用されている。 エッジセットを複数のバランスのとれた部分に分割することで、コピーされた頂点の総数を最小化するグラフエッジ分割問題は、最適化とアルゴリズムの観点から広く研究されている。 本稿では,既存の手法による分割結果を改善するために,局所探索アルゴリズムについて検討する。 具体的には,2つの新しい概念,すなわち調整可能なエッジとブロックを提案する。 これらの結果をもとに,max-flowモデルの特性を生かした検索アルゴリズムを改良し,欲張りなヒューリスティックを開発した。 アルゴリズムの性能を評価するため,まず近似品質の観点から適切な理論的解析を行う。 この問題に対する既知の近似比を大幅に改善する。 そして、多数のベンチマークデータセットと最先端のエッジパーティション戦略に関する広範な実験を行う。 その結果,提案する局所探索フレームワークは,グラフ分割のクオリティをさらに向上させることができることがわかった。

Graph partition is a key component to achieve workload balance and reduce job completion time in parallel graph processing systems. Among the various partition strategies, edge partition has demonstrated more promising performance in power-law graphs than vertex partition and thereby has been more widely adopted as the default partition strategy by existing graph systems. The graph edge partition problem, which is to split the edge set into multiple balanced parts to minimize the total number of copied vertices, has been widely studied from the view of optimization and algorithms. In this paper, we study local search algorithms for this problem to further improve the partition results from existing methods. More specifically, we propose two novel concepts, namely adjustable edges and blocks. Based on these, we develop a greedy heuristic as well as an improved search algorithm utilizing the property of the max-flow model. To evaluate the performance of our algorithms, we first provide adequate theoretical analysis in terms of the approximation quality. We significantly improve the previously known approximation ratio for this problem. Then we conduct extensive experiments on a large number of benchmark datasets and state-of-the-art edge partition strategies. The results show that our proposed local search framework can further improve the quality of graph partition by a wide margin.
翻訳日:2021-05-02 19:01:54 公開日:2020-12-17
# (参考訳) 肺がん予測のための半教師付き自己訓練法 [全文訳有]

A new semi-supervised self-training method for lung cancer prediction ( http://arxiv.org/abs/2012.09472v1 )

ライセンス: CC0 1.0
Kelvin Shak, Mundher Al-Shabi, Andrea Liew, Boon Leong Lan, Wai Yee Chan, Kwan Hoong Ng, Maxine Tan(参考訳) 背景と目的:早期肺がんの発見は,ステージ3以上の患者に対して高い死亡率を示すため重要である。 ct(ct)スキャンから同時に結節を検出し分類する手法は比較的少ない。 さらに、肺がん予測に半教師付き学習を用いた研究はほとんどない。 本研究では,約4,000個のCTスキャンの総合的CT肺検診データセットを用いて,Nuisy Students法を用いて肺結節の検出と分類を行う。 方法:本研究では,LUNA16,LIDC,NLSTの3つのデータセットを用いた。 まず,3次元深層畳み込みニューラルネットワークモデルを用いて肺結節の検出を行った。 Maxout Local-Global Networkとして知られる分類モデルは、非ローカルネットワークを使用して、形状特徴、残留ブロック、結節テクスチャを含む局所的特徴の検出、結節変動を検出するMaxoutレイヤを含むグローバルな特徴を検出する。 我々は,NLSTデータセットを用いた肺がん予測のために,Noisy Studentsモデルを用いた最初のセルフトレーニングを訓練した。 次に,Mixup正則化を行い,提案手法を強化し,誤ラベルに対する堅牢性を実現した。 結果と結論: 我々の新しいMixup Maxout Local-Globalネットワークは、NLSTデータセットから2,005個の完全に独立したテストスキャンに対して0.87のAUCを達成する。 提案手法はデロング試験 (p = 0.0001) を用いて5%の重要度レベルにおいて, 次の最高性能法を有意に上回った。 本研究では,Nuisy StudentsとMixup正則化を組み合わせた自己学習による肺がん予測手法を提案する。 2,005個のスキャンの完全な独立データセット上で,他の手法に比べて画像数が多くても最先端の性能を達成できた。

Background and Objective: Early detection of lung cancer is crucial as it has high mortality rate with patients commonly present with the disease at stage 3 and above. There are only relatively few methods that simultaneously detect and classify nodules from computed tomography (CT) scans. Furthermore, very few studies have used semi-supervised learning for lung cancer prediction. This study presents a complete end-to-end scheme to detect and classify lung nodules using the state-of-the-art Self-training with Noisy Student method on a comprehensive CT lung screening dataset of around 4,000 CT scans. Methods: We used three datasets, namely LUNA16, LIDC and NLST, for this study. We first utilise a three-dimensional deep convolutional neural network model to detect lung nodules in the detection stage. The classification model known as Maxout Local-Global Network uses non-local networks to detect global features including shape features, residual blocks to detect local features including nodule texture, and a Maxout layer to detect nodule variations. We trained the first Self-training with Noisy Student model to predict lung cancer on the unlabelled NLST datasets. Then, we performed Mixup regularization to enhance our scheme and provide robustness to erroneous labels. Results and Conclusions: Our new Mixup Maxout Local-Global network achieves an AUC of 0.87 on 2,005 completely independent testing scans from the NLST dataset. Our new scheme significantly outperformed the next highest performing method at the 5% significance level using DeLong's test (p = 0.0001). This study presents a new complete end-to-end scheme to predict lung cancer using Self-training with Noisy Student combined with Mixup regularization. On a completely independent dataset of 2,005 scans, we achieved state-of-the-art performance even with more images as compared to other methods.
翻訳日:2021-05-02 18:47:30 公開日:2020-12-17
# (参考訳) 人工知能の計算原理:ニューラルネットワークによる学習と推論 [全文訳有]

Computational principles of intelligence: learning and reasoning with neural networks ( http://arxiv.org/abs/2012.09477v1 )

ライセンス: CC BY 4.0
Abel Torres Montoya(参考訳) 機械学習と人工知能に対する大きな成果と現在の関心にもかかわらず、汎用的で効率的な問題解決を可能にする知性理論の探求はほとんど進歩していない。 この研究は、3つの原則に基づいた新しい知能の枠組みを提案し、この方向性に貢献しようとするものである。 まず、学習した入力表現の生成とミラーリングの性質。 第二に、学習、問題解決、想像力のための基礎的で本質的で反復的なプロセスです。 第3に、抑制規則を用いた因果合成表現に対する推論機構のアドホックチューニング。 これらの原則は、解釈可能性、継続的な学習、常識などを提供するシステムアプローチを生み出します。 一般的な問題解決手法として、人間指向のツールとして、そして最後に、脳の情報処理のモデルとして、このフレームワークが開発されている。

Despite significant achievements and current interest in machine learning and artificial intelligence, the quest for a theory of intelligence, allowing general and efficient problem solving, has done little progress. This work tries to contribute in this direction by proposing a novel framework of intelligence based on three principles. First, the generative and mirroring nature of learned representations of inputs. Second, a grounded, intrinsically motivated and iterative process for learning, problem solving and imagination. Third, an ad hoc tuning of the reasoning mechanism over causal compositional representations using inhibition rules. Together, those principles create a systems approach offering interpretability, continuous learning, common sense and more. This framework is being developed from the following perspectives: as a general problem solving method, as a human oriented tool and finally, as model of information processing in the brain.
翻訳日:2021-05-02 18:30:13 公開日:2020-12-17
# (参考訳) 3次元CNNのグローバルローカルアテンションを用いた弱改善された行動局在と行動認識 [全文訳有]

Weakly-Supervised Action Localization and Action Recognition using Global-Local Attention of 3D CNN ( http://arxiv.org/abs/2012.09542v1 )

ライセンス: CC BY 4.0
Novanto Yudistira, Muthu Subash Kavitha, Takio Kurita(参考訳) 3D畳み込みニューラルネットワーク(3D CNN)は、ビデオシーケンスなどの3Dデータに関する空間的および時間的情報をキャプチャする。 しかし,畳み込み・プーリング機構により,情報損失は避けられないように思われる。 3d cnnの視覚的な説明と分類を改善するために,(1)学習した3dresnextネットワークを用いて,局所的(グローバル局所)離散勾配を階層的に集約し,(2)注意ゲーティングネットワークを実装し,動作認識の精度を向上させる手法を提案する。 提案手法は,3d cnnにおけるグローバル・ローカル・アテンション (global-local attention) と呼ばれる各層の有用性を示すことを目的としている。 まず、3dresnextを訓練し、最大予測クラスに関するバックプロパゲーションを用いたアクション分類に適用する。 各層の勾配と活性化はアップサンプリングされる。 その後、アグリゲーションはよりニュアンス的な注意を喚起するために使われ、予測されたクラスの入力ビデオの最も重要な部分を指し示している。 我々は最終位置決めに最終注意の輪郭閾値を用いる。 3dcamによる細粒度映像によるトリミング映像の空間的および時間的動作の定位評価を行った。 実験の結果,提案手法は視覚的な説明と識別的注意を生じさせることがわかった。 さらに,各層における注意ゲーティングによる行動認識は,ベースラインモデルよりも優れた分類結果が得られる。

3D Convolutional Neural Network (3D CNN) captures spatial and temporal information on 3D data such as video sequences. However, due to the convolution and pooling mechanism, the information loss seems unavoidable. To improve the visual explanations and classification in 3D CNN, we propose two approaches; i) aggregate layer-wise global to local (global-local) discrete gradients using trained 3DResNext network, and ii) implement attention gating network to improve the accuracy of the action recognition. The proposed approach intends to show the usefulness of every layer termed as global-local attention in 3D CNN via visual attribution, weakly-supervised action localization, and action recognition. Firstly, the 3DResNext is trained and applied for action classification using backpropagation concerning the maximum predicted class. The gradients and activations of every layer are then up-sampled. Later, aggregation is used to produce more nuanced attention, which points out the most critical part of the predicted class's input videos. We use contour thresholding of final attention for final localization. We evaluate spatial and temporal action localization in trimmed videos using fine-grained visual explanation via 3DCam. Experimental results show that the proposed approach produces informative visual explanations and discriminative attention. Furthermore, the action recognition via attention gating on each layer produces better classification results than the baseline model.
翻訳日:2021-05-02 18:10:53 公開日:2020-12-17
# (参考訳) 変圧器を用いた少数ショットシーケンス学習 [全文訳有]

Few-shot Sequence Learning with Transformers ( http://arxiv.org/abs/2012.09543v1 )

ライセンス: CC BY 4.0
Lajanugen Logeswaran, Ann Lee, Myle Ott, Honglak Lee, Marc'Aurelio Ranzato, Arthur Szlam(参考訳) 少数のトレーニング例でのみ提供される新しいタスクの学習を目的としている。 本研究では,データポイントがトークン列である設定において,少数ショット学習を行い,トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。 最も簡単な設定では、実行すべき特定のタスクを表す入力シーケンスにトークンを付加し、ラベル付き例が少ないため、このトークンの埋め込みをオンザフライで最適化できることを示す。 当社のアプローチでは,メタラーニングや少ショットラーニングの文献で現在普及しているアダプタ層や第2次微分計算といったモデルアーキテクチャの複雑な変更は必要としない。 様々なタスクに対する我々のアプローチを実証し、いくつかのモデル変種およびベースラインアプローチの一般化特性を解析する。 特に,構成的タスク記述子により性能が向上することを示す。 実験により、我々のアプローチは、計算効率が向上しつつ、少なくとも他の手法と同様に動作することが示された。

Few-shot algorithms aim at learning new tasks provided only a handful of training examples. In this work we investigate few-shot learning in the setting where the data points are sequences of tokens and propose an efficient learning algorithm based on Transformers. In the simplest setting, we append a token to an input sequence which represents the particular task to be undertaken, and show that the embedding of this token can be optimized on the fly given few labeled examples. Our approach does not require complicated changes to the model architecture such as adapter layers nor computing second order derivatives as is currently popular in the meta-learning and few-shot learning literature. We demonstrate our approach on a variety of tasks, and analyze the generalization properties of several model variants and baseline approaches. In particular, we show that compositional task descriptors can improve performance. Experiments show that our approach works at least as well as other methods, while being more computationally efficient.
翻訳日:2021-05-02 18:02:20 公開日:2020-12-17
# (参考訳) 発展途上国の疾病発生に備えるツールとしてのcovid-19感情モニタリング [全文訳有]

COVID-19 Emotion Monitoring as a Tool to Increase Preparedness for Disease Outbreaks in Developing Regions ( http://arxiv.org/abs/2012.12184v1 )

ライセンス: CC BY 4.0
Santiago Cortes and Juan Mu\~noz and David Betancur and Mauricio Toro(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、病院の入院管理から不安やうつ病などの精神疾患の緩和など、多くの課題を引き起こした。 本稿では,最先端自然言語処理モデルに基づくtwitter感情監視システムを開発することにより,後発の問題に対する解決策を提案する。 このシステムは、都市のアカウント上の6つの異なる感情をモニタし、政治家や保健当局のtwitterアカウントも監視する。 感情モニターを匿名で使用することで、保健当局と民間の健康保険会社は、自殺や臨床抑うつなどの問題に取り組む戦略を開発することができる。 そのようなタスクのために選択されたモデルは、スペインコーパス(BETO)で事前訓練された変換器(BERT)からの双方向エンコーダ表現である。 モデルは検証データセットでうまく機能した。 このシステムは、コロンビアのcovid-19のシミュレーションとデータ分析のためのwebアプリケーションの一部として、https://epidemiologi a-matematica.orgで公開されている。

The COVID-19 pandemic brought many challenges, from hospital-occupation management to lock-down mental-health repercussions such as anxiety or depression. In this work, we present a solution for the later problem by developing a Twitter emotion-monitor system based on a state-of-the-art natural-language processing model. The system monitors six different emotions on accounts in cities, as well as politicians and health-authorities Twitter accounts. With an anonymous use of the emotion monitor, health authorities and private health-insurance companies can develop strategies to tackle problems such as suicide and clinical depression. The model chosen for such a task is a Bidirectional-Encode r Representations from Transformers (BERT) pre-trained on a Spanish corpus (BETO). The model performed well on a validation dataset. The system is deployed online as part of a web application for simulation and data analysis of COVID-19, in Colombia, available at https://epidemiologi a-matematica.org.
翻訳日:2021-05-02 17:46:11 公開日:2020-12-17
# (参考訳) トランスフォーマーを用いた事象連鎖の自己回帰推論 [全文訳有]

Autoregressive Reasoning over Chains of Facts with Transformers ( http://arxiv.org/abs/2012.11321v1 )

ライセンス: CC BY 4.0
Ruben Cartuyvels, Graham Spinks and Marie-Francine Moens(参考訳) 本稿では,テキストスニペットの形で関連する事実を検索し,自然言語による質問とその答えを求めるマルチホップ説明再生のための反復推論アルゴリズムを提案する。 マルチホップ推論のための複数の証拠や事実の組み合わせは、推論に必要な情報源の数が増えるとますます難しくなる。 提案アルゴリズムは, コーパスからの事象の選択を自己回帰的に分解し, 以前に選択した事実に対して次の繰り返しを条件にすることで, この問題に対処する。 これにより、ペアワイズな学習とランクの損失が利用できます。 本手法は,TextGraphs 2019 および 2020 Shared Tasks のデータセットを用いて,説明再生のための検証を行う。 このタスクの既存の作業は、独立して事実を評価するか、事実の連鎖を人工的に制限する。 本手法は, 事前学習したトランスフォーマーモデルを用いて, 精度, トレーニング時間, 推論効率の面では, 従来よりも優れていることを示す。

This paper proposes an iterative inference algorithm for multi-hop explanation regeneration, that retrieves relevant factual evidence in the form of text snippets, given a natural language question and its answer. Combining multiple sources of evidence or facts for multi-hop reasoning becomes increasingly hard when the number of sources needed to make an inference grows. Our algorithm copes with this by decomposing the selection of facts from a corpus autoregressively, conditioning the next iteration on previously selected facts. This allows us to use a pairwise learning-to-rank loss. We validate our method on datasets of the TextGraphs 2019 and 2020 Shared Tasks for explanation regeneration. Existing work on this task either evaluates facts in isolation or artificially limits the possible chains of facts, thus limiting multi-hop inference. We demonstrate that our algorithm, when used with a pre-trained transformer model, outperforms the previous state-of-the-art in terms of precision, training time and inference efficiency.
翻訳日:2021-05-02 17:41:44 公開日:2020-12-17
# (参考訳) リカレントオートエンコーダからの一貫性指向潜在符号を用いた軌道塩分検出

Trajectory saliency detection using consistency-oriented latent codes from a recurrent auto-encoder ( http://arxiv.org/abs/2012.09573v1 )

ライセンス: CC BY 4.0
L. Maczyta, P. Bouthemy and O. Le Meur(参考訳) 本稿では,ビデオシーケンスから進行動的サリエンシを検出することに関心がある。 より正確には、私たちは動きに関連する給与に興味があり、時間とともに徐々に現れる可能性が高い。 アラームの起動、追加処理の献身、特定のイベントの検出に関連がある。 軌道は、進行的な動的塩分検出をサポートする最善の方法である。 そのため、トラジェクティブ・サリエンシーについて論じる。 与えられた文脈に関連する共通の動きパターンを共有する通常の軌跡から逸脱した場合、軌跡は有能である。 まず、軌跡のコンパクトかつ識別的な表現が必要である。 ほぼ)教師なしの学習ベースのアプローチを採用しています。 再帰オートエンコーダによって推定される潜在コードは、所望の表現を提供する。 さらに、オートエンコーダ損失関数を用いて、通常の(類似した)軌道の整合性を強制する。 軌道コードから正規性を考慮したプロトタイプコードまでの距離は、健全な軌道を検出する手段である。 我々は,合成および実軌道データセット上での軌道塩分検出手法を検証し,その異なる成分の寄与を強調する。 本手法は,駅で取得した歩行者軌跡の公開データセット(alahi 2014)から得られた複数のシナリオにおいて,既存の手法に勝ることを示す。

In this paper, we are concerned with the detection of progressive dynamic saliency from video sequences. More precisely, we are interested in saliency related to motion and likely to appear progressively over time. It can be relevant to trigger alarms, to dedicate additional processing or to detect specific events. Trajectories represent the best way to support progressive dynamic saliency detection. Accordingly, we will talk about trajectory saliency. A trajectory will be qualified as salient if it deviates from normal trajectories that share a common motion pattern related to a given context. First, we need a compact while discriminative representation of trajectories. We adopt a (nearly) unsupervised learning-based approach. The latent code estimated by a recurrent auto-encoder provides the desired representation. In addition, we enforce consistency for normal (similar) trajectories through the auto-encoder loss function. The distance of the trajectory code to a prototype code accounting for normality is the means to detect salient trajectories. We validate our trajectory saliency detection method on synthetic and real trajectory datasets, and highlight the contributions of its different components. We show that our method outperforms existing methods on several scenarios drawn from the publicly available dataset of pedestrian trajectories acquired in a railway station (Alahi 2014).
翻訳日:2021-05-02 17:23:17 公開日:2020-12-17
# (参考訳) 非対称マルチタスク特徴学習におけるタスク不確かさ損失の負の移動 [全文訳有]

Task Uncertainty Loss Reduce Negative Transfer in Asymmetric Multi-task Feature Learning ( http://arxiv.org/abs/2012.09575v1 )

ライセンス: CC BY 4.0
Rafael Peres da Silva, Chayaporn Suphavilai, Niranjan Nagarajan(参考訳) マルチタスク学習(MTL)は、限られた訓練データに基づいて目標タスクを学習しなければならない設定で頻繁に使用されるが、関連する補助タスクから知識を活用できる。 mtlはシングルタスク学習(stl)と比較して全体的なタスクパフォーマンスを向上させることができるが、これらの改善は負の転送(nt)を隠すことができる。 非対称マルチタスク特徴学習(AMTFL)は、損失値の高いタスクが他のタスクを学習するための特徴表現に与える影響を小さくすることで、この問題に対処しようとするアプローチである。 タスク損失値は必ずしも特定のタスクのモデルの信頼性を示すものではない。 本稿では,2つの直交データセット(画像認識と薬理ゲノミクス)にNTの例を示し,課題間の相対的信頼度を把握し,タスク損失の重みを設定することで,この課題に対処する。 提案手法は,堅牢なMTLを実現するための新しいアプローチを提供するNTを削減できることを示す。

Multi-task learning (MTL) is frequently used in settings where a target task has to be learnt based on limited training data, but knowledge can be leveraged from related auxiliary tasks. While MTL can improve task performance overall relative to single-task learning (STL), these improvements can hide negative transfer (NT), where STL may deliver better performance for many individual tasks. Asymmetric multitask feature learning (AMTFL) is an approach that tries to address this by allowing tasks with higher loss values to have smaller influence on feature representations for learning other tasks. Task loss values do not necessarily indicate reliability of models for a specific task. We present examples of NT in two orthogonal datasets (image recognition and pharmacogenomics) and tackle this challenge by using aleatoric homoscedastic uncertainty to capture the relative confidence between tasks, and set weights for task loss. Our results show that this approach reduces NT providing a new approach to enable robust MTL.
翻訳日:2021-05-02 17:22:17 公開日:2020-12-17
# (参考訳) 金融機関向け高出力ニューラルネットワークモデルによる感性データ検出 [全文訳有]

Sensitive Data Detection with High-Throughput Neural Network Models for Financial Institutions ( http://arxiv.org/abs/2012.09597v1 )

ライセンス: CC0 1.0
Anh Truong, Austin Walters, Jeremy Goodsitt(参考訳) 名前付きエンティティ認識は多くの分野で広く研究されている。 しかし, ラベル付きデータセットが公開されていないため, 金融機関における生産システムへのセンシティブな実体検出の適用は十分に検討されていない。 本稿では、内部および合成データセットを用いて、非構造化データフォーマットと構造化データフォーマットの両方において、金融機関内で一般的に見られるNPI(Nonpublic Personally Identibility)情報を検出する様々な方法を評価する。 CNN,LSTM,BiLSTM-CRF, CNN-CRFといった文字レベルのニューラルネットワークモデルは,複数のデータフォーマット上でのエンティティ検出と,表付きデータセット上でのカラム単位のエンティティ予測という2つの予測タスクについて検討した。 これらのモデルを,f1-score,精度,リコール,スループットに関して,実データと合成データの両方における他の標準的なアプローチと比較した。 実際のデータセットには、内部構造化データと、手動タグ付きラベル付き公開eメールデータが含まれる。 実験の結果,CNNモデルは精度とスループットにおいてシンプルだが有効であり,本運用環境に展開する最も適した候補モデルであることが示唆された。 最後に、データ制限、データラベリング、データエンティティの固有の重複について学んだ教訓をいくつか提供する。

Named Entity Recognition has been extensively investigated in many fields. However, the application of sensitive entity detection for production systems in financial institutions has not been well explored due to the lack of publicly available, labeled datasets. In this paper, we use internal and synthetic datasets to evaluate various methods of detecting NPI (Nonpublic Personally Identifiable) information commonly found within financial institutions, in both unstructured and structured data formats. Character-level neural network models including CNN, LSTM, BiLSTM-CRF, and CNN-CRF are investigated on two prediction tasks: (i) entity detection on multiple data formats, and (ii) column-wise entity prediction on tabular datasets. We compare these models with other standard approaches on both real and synthetic data, with respect to F1-score, precision, recall, and throughput. The real datasets include internal structured data and public email data with manually tagged labels. Our experimental results show that the CNN model is simple yet effective with respect to accuracy and throughput and thus, is the most suitable candidate model to be deployed in the production environment(s). Finally, we provide several lessons learned on data limitations, data labelling and the intrinsic overlap of data entities.
翻訳日:2021-05-02 17:18:59 公開日:2020-12-17
# (参考訳) XAI-P-T: 説明可能な人工知能の実践から理論へ [全文訳有]

XAI-P-T: A Brief Review of Explainable Artificial Intelligence from Practice to Theory ( http://arxiv.org/abs/2012.09636v1 )

ライセンス: CC BY 4.0
Nazanin Fouladgar and Kary Fr\"amling(参考訳) 本稿では,いくつかの基礎文献で確認された説明可能なAI(XAI)の実践的・理論的側面について報告する。 XAIの背景の表現には膨大な作業があるが、コーパスの多くは思考の個別の方向を指し示している。 実践と理論の同時に文学に洞察を与えることは、この分野ではまだギャップである。 これは、初期のXAI研究者の学習プロセスを促進し、経験豊富なXAI学者に明るい立場を与えるためである。 ここではまずブラックボックスの説明のカテゴリに注目し,実例を示す。 その後、多分野の体に理論的な説明が根拠となっているかについて議論する。 最後に、今後の作品の方向性を示す。

In this work, we report the practical and theoretical aspects of Explainable AI (XAI) identified in some fundamental literature. Although there is a vast body of work on representing the XAI backgrounds, most of the corpuses pinpoint a discrete direction of thoughts. Providing insights into literature in practice and theory concurrently is still a gap in this field. This is important as such connection facilitates a learning process for the early stage XAI researchers and give a bright stand for the experienced XAI scholars. Respectively, we first focus on the categories of black-box explanation and give a practical example. Later, we discuss how theoretically explanation has been grounded in the body of multidisciplinary fields. Finally, some directions of future works are presented.
翻訳日:2021-05-02 16:35:38 公開日:2020-12-17
# (参考訳) 映画脚本とストーリーに応用する概念的ソフトウェア工学 [全文訳有]

Conceptual Software Engineering Applied to Movie Scripts and Stories ( http://arxiv.org/abs/2012.11319v1 )

ライセンス: CC BY 4.0
Sabah Al-Fedaghi(参考訳) 本研究は,他の研究分野に適用可能な,ソフトウェア工学ツール,概念モデリングの別の応用について紹介する。 ソフトウェア工学と他の分野との関係を強化する一つの方法は、これらの分野の特異性に対処できる概念モデリングを行う良い方法を開発することである。 この研究は人文科学と社会科学に焦点を合わせ、通常は抽象機械や(抽象的)機械から離れて、より柔らかいと考えられる。 具体的には、ストーリーや映画の脚本の領域におけるソフトウェア工学ツール(UMLなど)としての概念モデリングに焦点を当てます。 人文科学と社会科学の研究者たちは、エンジニアが行うような形式化は使っていないかもしれないが、概念モデリングは有用だと考えている。 現在のモデリング技術(UMLなど)はこのタスクで失敗する。 同様の概念モデリング言語(ConMLなど)は、人文科学や社会科学を念頭に置いて提案され、あらゆるものをモデル化することができる。 この研究は、ソフトウェアモデリング技術であるthinging machine(tm)が映画脚本やストーリーに適用されるこの方向のベンチャーである。 本稿では,映画脚本や物語の図形的静的・動的モデルを開発するための新しいアプローチを提案する。 tmモデルダイアグラムはナラティブな談話の中立的で独立した表現であり、参加者間のコミュニケーション手段として使用できる。 提示された例は、プロップの妖精のモデルによる例で、鉄道児童と実際の映画の脚本は、アプローチの可能性を示唆しているようである。

This study introduces another application of software engineering tools, conceptual modeling, which can be applied to other fields of research. One way to strengthen the relationship between software engineering and other fields is to develop a good way to perform conceptual modeling that is capable of addressing the peculiarities of these fields of study. This study concentrates on humanities and social sciences, which are usually considered softer and further away from abstractions and (abstract) machines. Specifically, we focus on conceptual modeling as a software engineering tool (e.g., UML) in the area of stories and movie scripts. Researchers in the humanities and social sciences might not use the same degree of formalization that engineers do, but they still find conceptual modeling useful. Current modeling techniques (e.g., UML) fail in this task because they are geared toward the creation of software systems. Similar Conceptual Modeling Language (e.g., ConML) has been proposed with the humanities and social sciences in mind and, as claimed, can be used to model anything. This study is a venture in this direction, where a software modeling technique, Thinging Machine (TM), is applied to movie scripts and stories. The paper presents a novel approach to developing diagrammatic static/dynamic models of movie scripts and stories. The TM model diagram serves as a neutral and independent representation for narrative discourse and can be used as a communication instrument among participants. The examples presented include examples from Propp s model of fairytales; the railway children and an actual movie script seem to point to the viability of the approach.
翻訳日:2021-05-02 16:28:45 公開日:2020-12-17
# (参考訳) RainBench: 衛星画像による世界の降水予測に向けて [全文訳有]

RainBench: Towards Global Precipitation Forecasting from Satellite Imagery ( http://arxiv.org/abs/2012.09670v1 )

ライセンス: CC BY 4.0
Christian Schroeder de Witt, Catherine Tong, Valentina Zantedeschi, Daniele De Martini, Freddie Kalaitzis, Matthew Chantry, Duncan Watson-Parris, Piotr Bilinski(参考訳) 激しい降雨や暴風雨のような極端な降雨は、発展途上国の経済や生活を日常的に破壊する。 気候変動はこの問題をさらに悪化させる。 データ駆動型ディープラーニングアプローチは、そのようなイベントを緩和するために、正確な複数日予測へのアクセスを広げる可能性がある。 しかし、世界の降水量予測の研究に特化したベンチマークデータセットは今のところ存在しない。 本稿では,データ駆動降水予測のための新しいマルチモーダルベンチマークデータセットである \textbf{RainBench} を紹介する。 これには、シミュレーションされた衛星データ、era5の再分析製品からの関連する気象データの選択、およびimergの降水データが含まれる。 また、大規模な降水データセットを効率的に処理するライブラリである \textbf{PyRain} もリリースしています。 本研究では,提案するデータセットを広範囲に分析し,中規模降水予測タスクのベースラインを2つ確立する。 最後に,既存の気象予報手法について考察し,今後の研究方法を提案する。

Extreme precipitation events, such as violent rainfall and hail storms, routinely ravage economies and livelihoods around the developing world. Climate change further aggravates this issue. Data-driven deep learning approaches could widen the access to accurate multi-day forecasts, to mitigate against such events. However, there is currently no benchmark dataset dedicated to the study of global precipitation forecasts. In this paper, we introduce \textbf{RainBench}, a new multi-modal benchmark dataset for data-driven precipitation forecasting. It includes simulated satellite data, a selection of relevant meteorological data from the ERA5 reanalysis product, and IMERG precipitation data. We also release \textbf{PyRain}, a library to process large precipitation datasets efficiently. We present an extensive analysis of our novel dataset and establish baseline results for two benchmark medium-range precipitation forecasting tasks. Finally, we discuss existing data-driven weather forecasting methodologies and suggest future research avenues.
翻訳日:2021-05-02 16:16:18 公開日:2020-12-17
# (参考訳) GANトレーニングにおける燃焼モード崩壊:ヘッセン固有値を用いた実証分析 [全文訳有]

Combating Mode Collapse in GAN training: An Empirical Analysis using Hessian Eigenvalues ( http://arxiv.org/abs/2012.09673v1 )

ライセンス: CC BY 4.0
Ricard Durall, Avraam Chatzimichailidis, Peter Labus and Janis Keuper(参考訳) generative adversarial networks (gans) は最先端の成果を画像生成に提供します。 しかし、非常に強力であるにもかかわらず、訓練は非常に困難である。 これは特に、非常に非凸な最適化空間が多くの不安定性をもたらすために引き起こされる。 中でもモード崩壊は、最も厄介なもののひとつとして際立っている。 この望ましくないイベントは、モデルがデータ分散のいくつかのモードのみに適合できる場合に発生するが、その大半は無視される。 本研究では,2次勾配情報を用いてモード崩壊と戦う。 そのため、Hessian固有値を通して損失曲面を解析し、モード崩壊が鋭い最小値への収束と関連していることを示す。 特に、$G$の固有値がモード崩壊の発生とどのように直接相関するかを観察する。 最後に,これらの知見に動機づけられて,スペクトル情報を用いてモード崩壊を克服し,経験的により安定な収束特性を実現する,nudged-adam(nugan)と呼ばれる新しい最適化アルゴリズムを設計した。

Generative adversarial networks (GANs) provide state-of-the-art results in image generation. However, despite being so powerful, they still remain very challenging to train. This is in particular caused by their highly non-convex optimization space leading to a number of instabilities. Among them, mode collapse stands out as one of the most daunting ones. This undesirable event occurs when the model can only fit a few modes of the data distribution, while ignoring the majority of them. In this work, we combat mode collapse using second-order gradient information. To do so, we analyse the loss surface through its Hessian eigenvalues, and show that mode collapse is related to the convergence towards sharp minima. In particular, we observe how the eigenvalues of the $G$ are directly correlated with the occurrence of mode collapse. Finally, motivated by these findings, we design a new optimization algorithm called nudged-Adam (NuGAN) that uses spectral information to overcome mode collapse, leading to empirically more stable convergence properties.
翻訳日:2021-05-02 15:56:03 公開日:2020-12-17
# (参考訳) ベンガル語におけるヘイトスピーチ検出:データセットとそのベースライン評価 [全文訳有]

Hate Speech detection in the Bengali language: A dataset and its baseline evaluation ( http://arxiv.org/abs/2012.09686v1 )

ライセンス: CC BY 4.0
Nauros Romim, Mosahed Ahmed, Hriteshwar Talukder, Md Saiful Islam(参考訳) YouTubeやFacebookといったソーシャルメディアサイトは、あらゆる人の生活に欠かせない存在となり、ここ数年、ソーシャルメディアのコメント欄でヘイトスピーチが急速に増えている。 ソーシャルメディアwebサイトにおけるヘイトスピーチの検出は、小さな不均衡データセット、適切なモデルの発見、特徴分析方法の選択など、さまざまな課題に直面している。 さらに、この問題は、金の標準ラベル付きデータセットがないため、ベンガル語話者コミュニティにとってより厳しいものである。 本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。 コメントはすべてYouTubeとFacebookのコメントセクションから収集され、スポーツ、エンターテイメント、宗教、政治、犯罪、有名人、TikTok & Memeの7つのカテゴリーに分類される。 合計50の注釈が各コメントに3回アノテートされ、過半数の投票が最終注釈とされた。 それでも我々は,Word2VecやFastText,BengFastTex tといったベンガル語を組み込んだベースライン実験や深層学習モデルをこのデータセット上で実施して,今後の研究機会の確保に努めてきた。 実験の結果、すべてのディープラーニングモデルはうまく動作したが、SVMは87.5%の精度で最高の結果を得た。 私たちの中心となる貢献は、ベンチマークデータセットを利用可能にして、ベンガルヘイトスピーチ検出の分野におけるさらなる研究を容易にすることです。

Social media sites such as YouTube and Facebook have become an integral part of everyone's life and in the last few years, hate speech in the social media comment section has increased rapidly. Detection of hate speech on social media websites faces a variety of challenges including small imbalanced data sets, the findings of an appropriate model and also the choice of feature analysis method. further more, this problem is more severe for the Bengali speaking community due to the lack of gold standard labelled datasets. This paper presents a new dataset of 30,000 user comments tagged by crowd sourcing and varified by experts. All the comments are collected from YouTube and Facebook comment section and classified into seven categories: sports, entertainment, religion, politics, crime, celebrity and TikTok & meme. A total of 50 annotators annotated each comment three times and the majority vote was taken as the final annotation. Nevertheless, we have conducted base line experiments and several deep learning models along with extensive pre-trained Bengali word embedding such as Word2Vec, FastText and BengFastText on this dataset to facilitate future research opportunities. The experiment illustrated that although all deep learning models performed well, SVM achieved the best result with 87.5% accuracy. Our core contribution is to make this benchmark dataset available and accessible to facilitate further research in the field of in the field of Bengali hate speech detection.
翻訳日:2021-05-02 15:45:13 公開日:2020-12-17
# (参考訳) sroll3: プランク高周波楽器マップにおける大規模系統効果低減のためのニューラルネットワークアプローチ [全文訳有]

SRoll3: A neural network approach to reduce large-scale systematic effects in the Planck High Frequency Instrument maps ( http://arxiv.org/abs/2012.09702v1 )

ライセンス: CC BY 4.0
Manuel L\'opez-Radcenco, Jean-Marc Delouis and Laurent Vibert(参考訳) 本研究では,Planck High Frequency Instrument(Planck-HF I)データに対するマップ作成と,生成したスカイマップ内の大規模な系統的効果の除去に着目し,構造化汚染源の削減を目的としたニューラルネットワークに基づくデータインバージョン手法を提案する。 汚染源の除去は、異なる時空間スケール間のカップリングを生み出す局所時空間相互作用によって特徴づけられるこれらの源の構造的性質によって可能となる。 これらの結合を利用して最適な低次元表現を学習し、汚染源除去と地図作成の目的に最適化し、堅牢で効果的なデータインバージョンを実現する手段として、ニューラルネットワークの探索に焦点をあてる。 提案手法の多種多様な変種を開発し,物理学的インフォームド制約とトランスファー学習技術の導入を検討する。 さらに、専門家の知識を教師なしのネットワークトレーニングアプローチに統合するために、データ拡張技術を活用することに注力する。 提案手法をPlanck-HFI 545 GHz Far Side Lobe シミュレーションデータに適用し,部分的,ギャップ満載,一貫性のないデータセットを含む理想的,非理想的事例を考察し,ニューラルネットワークに基づく次元性低減の可能性を示す。 また,本論文では,実プランクhfi 857 ghzデータに適用し,汚染除去性能の面で最大1桁の利益を報告し,構造的汚染源を正確にモデル化・捕捉するための提案手法の妥当性を示す。 本研究で開発された手法は,SRollアルゴリズムの新バージョン(SRoll3)に統合され,SRoll3 857 GHz検出器マップをコミュニティに公開する。

In the present work, we propose a neural network based data inversion approach to reduce structured contamination sources, with a particular focus on the mapmaking for Planck High Frequency Instrument (Planck-HFI) data and the removal of large-scale systematic effects within the produced sky maps. The removal of contamination sources is rendered possible by the structured nature of these sources, which is characterized by local spatiotemporal interactions producing couplings between different spatiotemporal scales. We focus on exploring neural networks as a means of exploiting these couplings to learn optimal low-dimensional representations, optimized with respect to the contamination source removal and mapmaking objectives, to achieve robust and effective data inversion. We develop multiple variants of the proposed approach, and consider the inclusion of physics informed constraints and transfer learning techniques. Additionally, we focus on exploiting data augmentation techniques to integrate expert knowledge into an otherwise unsupervised network training approach. We validate the proposed method on Planck-HFI 545 GHz Far Side Lobe simulation data, considering ideal and non-ideal cases involving partial, gap-filled and inconsistent datasets, and demonstrate the potential of the neural network based dimensionality reduction to accurately model and remove large-scale systematic effects. We also present an application to real Planck-HFI 857 GHz data, which illustrates the relevance of the proposed method to accurately model and capture structured contamination sources, with reported gains of up to one order of magnitude in terms of contamination removal performance. Importantly, the methods developed in this work are to be integrated in a new version of the SRoll algorithm (SRoll3), and we describe here SRoll3 857 GHz detector maps that will be released to the community.
翻訳日:2021-05-02 15:17:55 公開日:2020-12-17
# (参考訳) Deep Molecular Dreaming: Inverse Machine Learning for De-novo Molecular Design and Interpretability with surjective representations [全文訳有]

Deep Molecular Dreaming: Inverse machine learning for de-novo molecular design and interpretability with surjective representations ( http://arxiv.org/abs/2012.09712v1 )

ライセンス: CC BY 4.0
Cynthia Shen, Mario Krenn, Sagi Eppel, Alan Aspuru-Guzik(参考訳) コンピュータによる機能分子のデノボ設計は、今日の化学情報学における最も顕著な課題の1つである。 その結果、人工知能の分野からの生成的および進化的逆設計が急速に発展し、特定の化学的性質のために分子を最適化することを目指している。 これらのモデルは「間接的に」化学空間を探索し、潜伏空間、政策、分布を学習したり、分子の集団に突然変異を施すことで探索する。 しかし、SMILESの代替である分子のSELFIES文字列表現の最近の発展により、他の潜在的な技術が考えられるようになった。 そこで本研究では,SELFIESに基づく直進勾配に基づく分子最適化手法PASITHEAを提案する。 PASITHEAは、ニューラルネットワークの学習プロセスを直接反転させることで勾配の利用を利用する。 効果的に、これはある性質に最適化された分子変種を生成することができる逆回帰モデルを形成する。 結果は予備的ではあるが,パシテアの生存可能性を明確に示し,逆訓練中の選択された属性の分布の変化を観察した。 インセプション主義の驚くべき特性は、モデルがトレーニングした化学空間に対する理解を直接調査できることである。 PASITHEAをより大きなデータセット、分子、さらに複雑な性質に拡張することは、新しい機能分子の設計と機械学習モデルの解釈と説明につながると期待している。

Computer-based de-novo design of functional molecules is one of the most prominent challenges in cheminformatics today. As a result, generative and evolutionary inverse designs from the field of artificial intelligence have emerged at a rapid pace, with aims to optimize molecules for a particular chemical property. These models 'indirectly' explore the chemical space; by learning latent spaces, policies, distributions or by applying mutations on populations of molecules. However, the recent development of the SELFIES string representation of molecules, a surjective alternative to SMILES, have made possible other potential techniques. Based on SELFIES, we therefore propose PASITHEA, a direct gradient-based molecule optimization that applies inceptionism techniques from computer vision. PASITHEA exploits the use of gradients by directly reversing the learning process of a neural network, which is trained to predict real-valued chemical properties. Effectively, this forms an inverse regression model, which is capable of generating molecular variants optimized for a certain property. Although our results are preliminary, we observe a shift in distribution of a chosen property during inverse-training, a clear indication of PASITHEA's viability. A striking property of inceptionism is that we can directly probe the model's understanding of the chemical space it was trained on. We expect that extending PASITHEA to larger datasets, molecules and more complex properties will lead to advances in the design of new functional molecules as well as the interpretation and explanation of machine learning models.
翻訳日:2021-05-02 14:39:40 公開日:2020-12-17
# (参考訳) FERMI FELを用いた粒子加速器制御のためのモデルフリー・ベイズ組立モデルに基づく深部強化学習 [全文訳有]

Model-free and Bayesian Ensembling Model-based Deep Reinforcement Learning for Particle Accelerator Control Demonstrated on the FERMI FEL ( http://arxiv.org/abs/2012.09737v1 )

ライセンス: CC BY 4.0
Simon Hirlaender, Niky Bruchon(参考訳) 強化学習は加速器制御において大きな可能性を秘めている。 本研究の主な目的は, 加速器物理問題に対する運用レベルで, このアプローチをどのように活用できるかを示すことである。 モデルなし強化学習がいくつかの領域で成功したにもかかわらず、サンプル効率は依然としてボトルネックであり、モデルベース手法によって包含される可能性がある。 ferMI FELシステムの強度最適化に応用したモデルベースとモデルフリー強化学習を比較した。 モデルベースアプローチは,高い表現力とサンプル効率を示すが,モデルフリー手法の漸近的な性能は若干優れている。 モデルベースアルゴリズムは不確実性認識モデルを用いてDYNA形式で実装され、モデルフリーアルゴリズムはカスタマイズされた深層Q-ラーニングに基づいている。 いずれの場合もアルゴリズムが実装され、加速器制御問題におけるノイズロバスト性が増大する。 コードはhttps://github.com/M athPhysSim/FERMI_RL_ Paperで公開されている。

Reinforcement learning holds tremendous promise in accelerator controls. The primary goal of this paper is to show how this approach can be utilised on an operational level on accelerator physics problems. Despite the success of model-free reinforcement learning in several domains, sample-efficiency still is a bottle-neck, which might be encompassed by model-based methods. We compare well-suited purely model-based to model-free reinforcement learning applied to the intensity optimisation on the FERMI FEL system. We find that the model-based approach demonstrates higher representational power and sample-efficiency, while the asymptotic performance of the model-free method is slightly superior. The model-based algorithm is implemented in a DYNA-style using an uncertainty aware model, and the model-free algorithm is based on tailored deep Q-learning. In both cases, the algorithms were implemented in a way, which presents increased noise robustness as omnipresent in accelerator control problems. Code is released in https://github.com/M athPhysSim/FERMI_RL_ Paper.
翻訳日:2021-05-02 14:30:30 公開日:2020-12-17
# (参考訳) MAGNet:ディープマルチエージェント強化学習のためのマルチエージェントグラフネットワーク [全文訳有]

MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2012.09762v1 )

ライセンス: CC BY 4.0
Aleksandra Malysheva, Daniel Kudenko, Aleksei Shpilman(参考訳) 近年、深層強化学習は複雑な単一エージェントタスクにおいて強い成功をおさめており、近年ではマルチエージェントドメインにもこのアプローチが適用されている。 本稿では,自己着脱機構によって得られた環境の関連性グラフ表現とメッセージ生成手法を用いたマルチエージェント強化学習のための新しい手法であるmagnetを提案する。 MAGnetのアプローチを人工捕食者によるマルチエージェント環境とポンマーマンゲームに適用し、マルチエージェントディープQ-Networks(MADQN)、マルチエージェントディープ決定ポリシーグラディエント(MADDPG)、QMIX(QMIX)など、最先端のMARLソリューションを著しく上回っていることを示す。

Over recent years, deep reinforcement learning has shown strong successes in complex single-agent tasks, and more recently this approach has also been applied to multi-agent domains. In this paper, we propose a novel approach, called MAGNet, to multi-agent reinforcement learning that utilizes a relevance graph representation of the environment obtained by a self-attention mechanism, and a message-generation technique. We applied our MAGnet approach to the synthetic predator-prey multi-agent environment and the Pommerman game and the results show that it significantly outperforms state-of-the-art MARL solutions, including Multi-agent Deep Q-Networks (MADQN), Multi-agent Deep Deterministic Policy Gradient (MADDPG), and QMIX
翻訳日:2021-05-02 13:41:29 公開日:2020-12-17
# (参考訳) 化学空間を探究する好奇心 -深層分子強化学習への内在的報酬- [全文訳有]

Curiosity in exploring chemical space: Intrinsic rewards for deep molecular reinforcement learning ( http://arxiv.org/abs/2012.11293v1 )

ライセンス: CC BY 4.0
Luca A. Thiede, Mario Krenn, AkshatKumar Nigam, Alan Aspuru-Guzik(参考訳) コンピュータ支援による分子の設計は、薬物や物質発見の分野をディスラプトする可能性がある。 機械学習、特にディープラーニングは、この分野が急速に発展しているトピックである。 強化学習は、事前知識なしで分子設計を可能にするため、特に有望なアプローチである。 しかし,強化学習エージェントを用いた場合,検索空間は広く,効率的な探索が望ましい。 本研究では,効率的な探索を支援するアルゴリズムを提案する。 このアルゴリズムは、キュリオシティとして知られる概念にインスパイアされている。 興味のあるエージェントがより優れた分子を見つけるための3つのベンチマークを示す。 これは、自身のモチベーションから化学空間を探索できる強化学習エージェントのための、エキサイティングな新しい研究方向を示している。 これは、人類がこれまで考えていなかった予期せぬ新しい分子を生み出す可能性がある。

Computer-aided design of molecules has the potential to disrupt the field of drug and material discovery. Machine learning, and deep learning, in particular, have been topics where the field has been developing at a rapid pace. Reinforcement learning is a particularly promising approach since it allows for molecular design without prior knowledge. However, the search space is vast and efficient exploration is desirable when using reinforcement learning agents. In this study, we propose an algorithm to aid efficient exploration. The algorithm is inspired by a concept known in the literature as curiosity. We show on three benchmarks that a curious agent finds better performing molecules. This indicates an exciting new research direction for reinforcement learning agents that can explore the chemical space out of their own motivation. This has the potential to eventually lead to unexpected new molecules that no human has thought about so far.
翻訳日:2021-05-02 13:32:13 公開日:2020-12-17
# (参考訳) 回転バウンディングボックスの円形損失関数を用いた終端物体追跡 [全文訳有]

End-to-end Deep Object Tracking with Circular Loss Function for Rotated Bounding Box ( http://arxiv.org/abs/2012.09771v1 )

ライセンス: CC BY 4.0
Vladislav Belyaev, Aleksandra Malysheva, Aleksei Shpilman(参考訳) タスクオブジェクトのトラッキングは、自動運転、インテリジェントな監視、ロボット工学など、多くのアプリケーションで不可欠です。 このタスクは、ビデオストリーム内のオブジェクトへのバウンディングボックスの割り当てを伴い、最初のフレームのオブジェクトのバウンディングボックスのみを与えられる。 2015年、軸に沿ったものの拡張として回転バウンディングボックスを導入した新しいタイプのビデオオブジェクト追跡(VOT)データセットが作成された。 本研究では,Transformer Multi-Head Attentionアーキテクチャに基づくエンドツーエンドのディープラーニング手法を提案する。 また,境界ボックスの重なりと向きを考慮に入れた新しいタイプの損失関数を提案する。 円形損失関数(DOTCL)を用いたDeep Object Trackingモデルでは,現在の最先端のディープラーニングモデルよりも堅牢性が大幅に向上している。 また、期待平均オーバーラップ(EAO)メトリックの観点から、VOT2018データセットの最先端のオブジェクトトラッキング手法よりも優れています。

The task object tracking is vital in numerous applications such as autonomous driving, intelligent surveillance, robotics, etc. This task entails the assigning of a bounding box to an object in a video stream, given only the bounding box for that object on the first frame. In 2015, a new type of video object tracking (VOT) dataset was created that introduced rotated bounding boxes as an extension of axis-aligned ones. In this work, we introduce a novel end-to-end deep learning method based on the Transformer Multi-Head Attention architecture. We also present a new type of loss function, which takes into account the bounding box overlap and orientation. Our Deep Object Tracking model with Circular Loss Function (DOTCL) shows an considerable improvement in terms of robustness over current state-of-the-art end-to-end deep learning models. It also outperforms state-of-the-art object tracking methods on VOT2018 dataset in terms of expected average overlap (EAO) metric.
翻訳日:2021-05-02 13:23:16 公開日:2020-12-17
# (参考訳) 野生におけるハンドオブジェクトインタラクションの再構築 [全文訳有]

Reconstructing Hand-Object Interactions in the Wild ( http://arxiv.org/abs/2012.09856v1 )

ライセンス: CC BY 4.0
Zhe Cao, Ilija Radosavovic, Angjoo Kanazawa, Jitendra Malik(参考訳) 本研究では,野生におけるハンドオブジェクトインタラクションの再構築について検討する。 この問題の主な課題は、適切な3Dラベル付きデータの欠如である。 この問題を解決するために,直接3D監視を必要としない最適化手法を提案する。 私たちが採用する一般的な戦略は,利用可能なすべての関連データ(2dバウンディングボックス,2dハンドキーポイント,2dインスタンスマスク,3dオブジェクトモデル,3d in-the-lab mocap)を活用して,3d再構成の制約を提供することです。 手と物体を個別に最適化するのではなく、手オブジェクトの接触、衝突、閉塞に基づく追加の制約を課すことができるように、それらを共同で最適化する。 提案手法は,EPIC Kitchens と 100 Days of Hands のデータセットから,様々な対象カテゴリにまたがる挑戦的なデータに対して,魅力的な再構築を行う。 定量的に,我々のアプローチは,ground truth 3d アノテーションが利用可能なラボ環境における既存のアプローチと好適に比較できることを実証する。

In this work we explore reconstructing hand-object interactions in the wild. The core challenge of this problem is the lack of appropriate 3D labeled data. To overcome this issue, we propose an optimization-based procedure which does not require direct 3D supervision. The general strategy we adopt is to exploit all available related data (2D bounding boxes, 2D hand keypoints, 2D instance masks, 3D object models, 3D in-the-lab MoCap) to provide constraints for the 3D reconstruction. Rather than optimizing the hand and object individually, we optimize them jointly which allows us to impose additional constraints based on hand-object contact, collision, and occlusion. Our method produces compelling reconstructions on the challenging in-the-wild data from the EPIC Kitchens and the 100 Days of Hands datasets, across a range of object categories. Quantitatively, we demonstrate that our approach compares favorably to existing approaches in the lab settings where ground truth 3D annotations are available.
翻訳日:2021-05-02 11:18:20 公開日:2020-12-17
# (参考訳) FantastIC4: 4bit-Compact Multilayer Perceptronの効率的な動作のためのハードウェアソフトウェア共同設計手法 [全文訳有]

FantastIC4: A Hardware-Software Co-Design Approach for Efficiently Running 4bit-Compact Multilayer Perceptrons ( http://arxiv.org/abs/2012.11331v1 )

ライセンス: CC BY 4.0
Simon Wiedemann, Suhas Shivapakash, Pablo Wiedemann, Daniel Becking, Wojciech Samek, Friedel Gerfers, Thomas Wiegand(参考訳) ディープラーニングモデルを"エッジ"にデプロイする需要が高まっているため、非常に厳密で限られたリソース制約の中で最先端のモデルを実行できる技術を開発することが最重要である。 本研究では,完全接続層に基づくディープニューラルネットワーク(DNN)の高効率実行エンジンを実現するためのソフトウェアハードウェア最適化パラダイムを提案する。 提案手法は,高い予測性能を有する多層パーセプトロン(MLP)の面積削減と電力要求の低減を目的とした圧縮を中心にしている。 まず、ファンタスティック4と呼ばれる新しいハードウェアアーキテクチャを設計し、(1)完全連結層の複数のコンパクト表現の効率的なオンチップ実行をサポートし、(2)推論に必要な乗算器の数をわずか4(名前)まで最小化する。 さらに、ファンタスティック4上での効率的な実行のためにモデルを改善可能にするため、4ビット量子化に頑健で、同時に圧縮性が高い新しいエントロピー拘束トレーニング手法を提案する。 実験結果から,仮想超音速FPGA XCVU440デバイス実装において,総消費電力3.6Wの2.45TOPSのスループットを実現し,22nmプロセスASIC版では20.17TOPS/Wのスループットを実現することができた。 Google Speech Command(GSC)データセット用に設計された他の最先端アクセラレータと比較すると、スループットに関しては51$\times$、面積効率(GOPS/W)では145$\times$がよい。

With the growing demand for deploying deep learning models to the "edge", it is paramount to develop techniques that allow to execute state-of-the-art models within very tight and limited resource constraints. In this work we propose a software-hardware optimization paradigm for obtaining a highly efficient execution engine of deep neural networks (DNNs) that are based on fully-connected layers. Our approach is centred around compression as a means for reducing the area as well as power requirements of, concretely, multilayer perceptrons (MLPs) with high predictive performances. Firstly, we design a novel hardware architecture named FantastIC4, which (1) supports the efficient on-chip execution of multiple compact representations of fully-connected layers and (2) minimizes the required number of multipliers for inference down to only 4 (thus the name). Moreover, in order to make the models amenable for efficient execution on FantastIC4, we introduce a novel entropy-constrained training method that renders them to be robust to 4bit quantization and highly compressible in size simultaneously. The experimental results show that we can achieve throughputs of 2.45 TOPS with a total power consumption of 3.6W on a Virtual Ultrascale FPGA XCVU440 device implementation, and achieve a total power efficiency of 20.17 TOPS/W on a 22nm process ASIC version. When compared to the other state-of-the-art accelerators designed for the Google Speech Command (GSC) dataset, FantastIC4 is better by 51$\times$ in terms of throughput and 145$\times$ in terms of area efficiency (GOPS/W).
翻訳日:2021-05-02 11:03:29 公開日:2020-12-17
# (参考訳) 注意に基づくイメージアップサンプリング [全文訳有]

Attention-based Image Upsampling ( http://arxiv.org/abs/2012.09904v1 )

ライセンス: CC BY 4.0
Souvik Kundu, Hesham Mostafa, Sharath Nittur Sridhar, Sairam Sundaresan(参考訳) 畳み込み層は、コンピュータビジョンにおける多くのディープニューラルネットワークソリューションの不可欠な部分である。 近年の研究では、標準畳み込み操作を自己注意に基づくメカニズムに置き換えることで、画像分類や物体検出タスクの性能が改善されている。 本稿では,別の正準演算であるstrided transposed convolutionをアテンション機構で置き換える方法について述べる。 特徴写像の空間的次元を増加/上昇させるので,新しい注意に基づく操作注意に基づくアップサンプリングと呼ぶ。 単一画像の超解像とジョイント画像のアップサンプリングタスクの実験を通じて,従来のアップサンプリング手法よりも,より少ないパラメータを用いて,ストレート変換畳み込みや適応フィルタを基本としたアテンションベースアップサンプリングを一貫して上回っていることを示す。 注意係数と注意目標の計算に別個のソースを使用できるアテンション機構の固有の柔軟性は、複数の画像モダリティからの情報を融合する際に、アテンションベースアップサンプリングが自然な選択であることを示す。

Convolutional layers are an integral part of many deep neural network solutions in computer vision. Recent work shows that replacing the standard convolution operation with mechanisms based on self-attention leads to improved performance on image classification and object detection tasks. In this work, we show how attention mechanisms can be used to replace another canonical operation: strided transposed convolution. We term our novel attention-based operation attention-based upsampling since it increases/upsamples the spatial dimensions of the feature maps. Through experiments on single image super-resolution and joint-image upsampling tasks, we show that attention-based upsampling consistently outperforms traditional upsampling methods based on strided transposed convolution or based on adaptive filters while using fewer parameters. We show that the inherent flexibility of the attention mechanism, which allows it to use separate sources for calculating the attention coefficients and the attention targets, makes attention-based upsampling a natural choice when fusing information from multiple image modalities.
翻訳日:2021-05-02 10:34:33 公開日:2020-12-17
# (参考訳) 病理的特徴を用いた不確実性処理 : 高リスク癌生存法開発のためのプライマリケアデータの活用の可能性 [全文訳有]

Handling uncertainty using features from pathology: opportunities in primary care data for developing high risk cancer survival methods ( http://arxiv.org/abs/2012.09976v1 )

ライセンス: CC BY 4.0
Goce Ristanoski, Jon Emery, Javiera Martinez-Gutierrez, Damien Mccarthy, Uwe Aickelin(参考訳) 2019年、オーストラリア人144万人以上ががんと診断された。 大多数は、スクリーニングプログラムが存在する癌であっても、まずgpの症状を呈する。 プライマリケアにおけるがんの診断は、がん症状の非特異的な性質と頻度が低いため困難である。 がんの症状の疫学と,プライマリケアデータから患者の医療史の提示パターンを理解することは,早期発見とがん予後を改善する上で重要であると考えられた。 過去の患者の医療データは不完全、不規則、または欠如である可能性があるため、新しい診断に患者の歴史を使おうとする際、さらなる課題が生じる。 本研究の目的は,患者がGPで利用できる病歴の機会を探ることであり,早期に高リスク癌予後と治療成績の関連性を検討するために,早期に注文された全血液計数の結果に焦点をあてることである。 2年以内に癌を生存しないリスクのある患者に焦点をあてて,過去の病理検査結果が癌の予後を予測するのに利用できる特徴の導出につながるかを検討した。 この最初の研究は肺癌患者に焦点を当てているが、その方法論は他の種類のがんや他の医療記録に応用できる。 病理組織学的検査は,不完全あるいは不明瞭な症例においても,癌リスクと生存率の予測に関連性のある特徴を生じさせるのに有用であると考えられた。 以上の結果から,高リスク癌診断のための病理検査データの利用が強く示唆され,同様の目的で,新たな病理指標や他のプライマリケアデータセットの利用がさらに促進された。

More than 144 000 Australians were diagnosed with cancer in 2019. The majority will first present to their GP symptomatically, even for cancer for which screening programs exist. Diagnosing cancer in primary care is challenging due to the non-specific nature of cancer symptoms and its low prevalence. Understanding the epidemiology of cancer symptoms and patterns of presentation in patient's medical history from primary care data could be important to improve earlier detection and cancer outcomes. As past medical data about a patient can be incomplete, irregular or missing, this creates additional challenges when attempting to use the patient's history for any new diagnosis. Our research aims to investigate the opportunities in a patient's pathology history available to a GP, initially focused on the results within the frequently ordered full blood count to determine relevance to a future high-risk cancer prognosis, and treatment outcome. We investigated how past pathology test results can lead to deriving features that can be used to predict cancer outcomes, with emphasis on patients at risk of not surviving the cancer within 2-year period. This initial work focuses on patients with lung cancer, although the methodology can be applied to other types of cancer and other data within the medical record. Our findings indicate that even in cases of incomplete or obscure patient history, hematological measures can be useful in generating features relevant for predicting cancer risk and survival. The results strongly indicate to add the use of pathology test data for potential high-risk cancer diagnosis, and the utilize additional pathology metrics or other primary care datasets even more for similar purposes.
翻訳日:2021-05-02 09:14:50 公開日:2020-12-17
# (参考訳) コミュニティ分析のための二項尾 [全文訳有]

Binomial Tails for Community Analysis ( http://arxiv.org/abs/2012.09968v1 )

ライセンス: CC BY 4.0
Omid Madani, Thanh Ngo, Weifei Zeng, Sai Ankith Averine, Sasidhar Evuru, Varun Malhotra, Shashidhar Gandham, Navindra Yadav(参考訳) ネットワークにおけるコミュニティ発見の重要な課題は、結果の重要性と、生成した候補グループのロバストなランキングを評価することである。 多くの場合、多くの候補コミュニティが発見され、アナリストの時間を最も有望で有望な発見に集中することが重要です。 二項モデルを用いて,末尾確率から導出した簡便なグループスコアリング関数を開発した。 合成および多数の実世界のデータに関する実験は、二項スコアリングがコンダクタンスのような他の安価なスコアリング関数よりも堅牢なランク付けにつながることを示す。 さらに、検出されたグループをフィルタリングしラベル付けするために使用できる信頼値(p$-values)を得る。 我々の分析はアプローチの様々な特性に光を当てた。 二項尾は単純で汎用的であり、コミュニティ分析の他の2つの応用として、コミュニティメンバーシップの度合い(それがグループスコア機能をもたらす)と、コミュニティが引き起こすグラフにおける重要なエッジの発見について述べる。

An important task of community discovery in networks is assessing significance of the results and robust ranking of the generated candidate groups. Often in practice, numerous candidate communities are discovered, and focusing the analyst's time on the most salient and promising findings is crucial. We develop simple efficient group scoring functions derived from tail probabilities using binomial models. Experiments on synthetic and numerous real-world data provides evidence that binomial scoring leads to a more robust ranking than other inexpensive scoring functions, such as conductance. Furthermore, we obtain confidence values ($p$-values) that can be used for filtering and labeling the discovered groups. Our analyses shed light on various properties of the approach. The binomial tail is simple and versatile, and we describe two other applications for community analysis: degree of community membership (which in turn yields group-scoring functions), and the discovery of significant edges in the community-induced graph.
翻訳日:2021-05-02 08:34:14 公開日:2020-12-17
# 自然言語処理における持続的生涯学習 : 調査

Continual Lifelong Learning in Natural Language Processing: A Survey ( http://arxiv.org/abs/2012.09823v1 )

ライセンス: Link先を確認
Magdalena Biesialska and Katarzyna Biesialska and Marta R. Costa-juss\`a(参考訳) 連続学習(continual learning, cl)は,情報システムが時間を越えた連続的なデータストリームから学ぶことを可能にする。 しかし,既存のディープラーニングアーキテクチャでは,従来の知識を忘れずに新しいタスクを学習することは困難である。 さらに、CLは言語学習において特に困難であり、自然言語は曖昧である:それは離散的で構成的であり、その意味は文脈に依存している。 本研究では,様々なNLPタスクのレンズを通してCLの問題を考察する。 本調査では,CLにおける主な課題とニューラルネットワークモデルに適用された現在の手法について論じる。 また,NLPにおける既存のCL評価手法とデータセットの批判的レビューを行う。 最後に,今後の研究方向性について概観する。

Continual learning (CL) aims to enable information systems to learn from a continuous data stream across time. However, it is difficult for existing deep learning architectures to learn a new task without largely forgetting previously acquired knowledge. Furthermore, CL is particularly challenging for language learning, as natural language is ambiguous: it is discrete, compositional, and its meaning is context-dependent. In this work, we look at the problem of CL through the lens of various NLP tasks. Our survey discusses major challenges in CL and current methods applied in neural network models. We also provide a critical review of the existing CL evaluation methods and datasets in NLP. Finally, we present our outlook on future research directions.
翻訳日:2021-05-02 07:42:34 公開日:2020-12-17
# マルウェア検出への定記憶による極長の分類

Classifying Sequences of Extreme Length with Constant Memory Applied to Malware Detection ( http://arxiv.org/abs/2012.09390v1 )

ライセンス: Link先を確認
Edward Raff, William Fleshman, Richard Zak, Hyrum S. Anderson, Bobby Filar, Mark McLean(参考訳) 機械学習における最近の研究は、特に極端な長さのシーケンス分類問題をサイバーセキュリティが提示している。 Windows実行可能マルウェア検出の場合、入力は100ドル MB を超え、これは$T=100,000,000 ステップの時系列に対応する。 現在、そのようなタスクを処理するための最も近いアプローチは、最大2000,000ドルのステップを処理できる畳み込みニューラルネットワークであるMalConvである。 CNNの$\mathcal{O}(T)$メモリは、CNNのマルウェアへのさらなる適用を妨げている。 本研究では,時間的最大値プーリングに対する新たなアプローチを開発し,必要なメモリを列長$T$に不変にする。 これにより、MalConv $116\times$ メモリ効率が向上し、25.8\times$ のトレーニング速度が向上し、MalConvへの入力長制限が取り除かれた。 我々は,MalConvアーキテクチャを改良するために,新たなGlobal Channel Gating設計を導入し,従来のMalConv CNNに欠ける機能である1億のタイムステップにわたる機能インタラクションを効率的に学習する機構について検討した。 私たちの実装はhttps://github.com/N euromorphicComputati onResearchProgram/Ma lConv2で確認できます。

Recent works within machine learning have been tackling inputs of ever-increasing size, with cybersecurity presenting sequence classification problems of particularly extreme lengths. In the case of Windows executable malware detection, inputs may exceed $100$ MB, which corresponds to a time series with $T=100,000,000$ steps. To date, the closest approach to handling such a task is MalConv, a convolutional neural network capable of processing up to $T=2,000,000$ steps. The $\mathcal{O}(T)$ memory of CNNs has prevented further application of CNNs to malware. In this work, we develop a new approach to temporal max pooling that makes the required memory invariant to the sequence length $T$. This makes MalConv $116\times$ more memory efficient, and up to $25.8\times$ faster to train on its original dataset, while removing the input length restrictions to MalConv. We re-invest these gains into improving the MalConv architecture by developing a new Global Channel Gating design, giving us an attention mechanism capable of learning feature interactions across 100 million time steps in an efficient manner, a capability lacked by the original MalConv CNN. Our implementation can be found at https://github.com/N euromorphicComputati onResearchProgram/Ma lConv2
翻訳日:2021-05-02 07:42:25 公開日:2020-12-17
# マルコフ等価DAGのカウントとサンプリングのための多項式時間アルゴリズム

Polynomial-Time Algorithms for Counting and Sampling Markov Equivalent DAGs ( http://arxiv.org/abs/2012.09679v1 )

ライセンス: Link先を確認
Marcel Wien\"obst and Max Bannach and Maciej Li\'skiewicz(参考訳) マルコフ同値類からの有向非巡回グラフ(DAG)の計数と一様サンプリングは、グラフィカル因果解析の基本的な課題である。 本稿では,これらの課題を多項式時間で実行可能であることを示し,この領域における長年のオープン問題を解く。 我々のアルゴリズムは効果的で容易に実装できる。 実験結果から, アルゴリズムは最先端手法よりも優れていた。

Counting and uniform sampling of directed acyclic graphs (DAGs) from a Markov equivalence class are fundamental tasks in graphical causal analysis. In this paper, we show that these tasks can be performed in polynomial time, solving a long-standing open problem in this area. Our algorithms are effective and easily implementable. Experimental results show that the algorithms significantly outperform state-of-the-art methods.
翻訳日:2021-05-02 07:42:03 公開日:2020-12-17
# 生存分析としての研究の再現性

Research Reproducibility as a Survival Analysis ( http://arxiv.org/abs/2012.09932v1 )

ライセンス: Link先を確認
Edward Raff(参考訳) 機械学習コミュニティでは、再現性危機に直面しているという懸念が高まっています。 多くの人がこの問題に取り組み始めていますが、私たちは、再現性の問題を本質的なバイナリプロパティとして扱うことに気付いています。 そこで我々は,論文の再現可能性のモデル化を生存分析問題として検討する。 我々は、この視点が再現可能な研究のメタ科学的疑問のより正確なモデルであることを論じ、生存分析がいかにして、先行する縦断的なデータを説明するための新たな洞察を引き出すかを示す。 データとコードはhttps://github.com/E dwardRaff/Research-R eproducibility-Survi val-Analysisで確認できる。

There has been increasing concern within the machine learning community that we are in a reproducibility crisis. As many have begun to work on this problem, all work we are aware of treat the issue of reproducibility as an intrinsic binary property: a paper is or is not reproducible. Instead, we consider modeling the reproducibility of a paper as a survival analysis problem. We argue that this perspective represents a more accurate model of the underlying meta-science question of reproducible research, and we show how a survival analysis allows us to draw new insights that better explain prior longitudinal data. The data and code can be found at https://github.com/E dwardRaff/Research-R eproducibility-Survi val-Analysis
翻訳日:2021-05-02 07:41:57 公開日:2020-12-17
# 変圧器に基づく物体検出に向けて

Toward Transformer-Based Object Detection ( http://arxiv.org/abs/2012.09958v1 )

ライセンス: Link先を確認
Josh Beal, Eric Kim, Eric Tzeng, Dong Huk Park, Andrew Zhai, Dmitry Kislyuk(参考訳) トランスフォーマーは、大量のデータに基づいて事前訓練を行い、微調整によってより小さな特定のタスクに移行する能力のため、自然言語処理において支配的なモデルとなっている。 Vision Transformerは、純粋なトランスフォーマーモデルを直接入力として画像に適用する最初の主要な試みであり、畳み込みネットワークと比較して、トランスフォーマーベースのアーキテクチャはベンチマーク分類タスクにおいて競合的な結果が得られることを示した。 しかしながら、注意演算子の計算複雑性は、低解像度入力に制限されることを意味する。 検出やセグメンテーションのようなより複雑なタスクでは、高いインプット解像度を維持することが、モデルがアウトプットの細部を適切に識別し、反映できるように不可欠である。 これにより、Vision Transformerのようなトランスフォーマーベースのアーキテクチャが、分類以外のタスクを実行できるかどうかという疑問が自然に持ち上がる。 本稿では、共通検出タスクヘッドによって、視覚変換器をバックボーンとして使用し、競合するCOCO結果を生成する。 提案するモデルであるViT-FRCNNは,事前学習能力と高速な微調整性能を含む,変圧器に関連するいくつかの既知の特性を示す。 また、ドメイン外画像の性能の向上、大規模オブジェクトの性能向上、非最大抑圧への依存の低減など、標準的な検出バックボーンの改善についても検討した。 我々は、ViT-FRCNNを、オブジェクト検出などの複雑な視覚タスクの純粋変換器ソリューションに向けた重要なステップストーンであると考えている。

Transformers have become the dominant model in natural language processing, owing to their ability to pretrain on massive amounts of data, then transfer to smaller, more specific tasks via fine-tuning. The Vision Transformer was the first major attempt to apply a pure transformer model directly to images as input, demonstrating that as compared to convolutional networks, transformer-based architectures can achieve competitive results on benchmark classification tasks. However, the computational complexity of the attention operator means that we are limited to low-resolution inputs. For more complex tasks such as detection or segmentation, maintaining a high input resolution is crucial to ensure that models can properly identify and reflect fine details in their output. This naturally raises the question of whether or not transformer-based architectures such as the Vision Transformer are capable of performing tasks other than classification. In this paper, we determine that Vision Transformers can be used as a backbone by a common detection task head to produce competitive COCO results. The model that we propose, ViT-FRCNN, demonstrates several known properties associated with transformers, including large pretraining capacity and fast fine-tuning performance. We also investigate improvements over a standard detection backbone, including superior performance on out-of-domain images, better performance on large objects, and a lessened reliance on non-maximum suppression. We view ViT-FRCNN as an important stepping stone toward a pure-transformer solution of complex vision tasks such as object detection.
翻訳日:2021-05-02 07:41:47 公開日:2020-12-17
# トランスフォーマーはアクションの効果を判断できるのか?

Can Transformers Reason About Effects of Actions? ( http://arxiv.org/abs/2012.09938v1 )

ライセンス: Link先を確認
Pratyay Banerjee, Chitta Baral, Man Luo, Arindam Mitra, Kuntal Pal, Tran C. Son, Neeraj Varshney(参考訳) 最近の研究では、トランスフォーマーは、ルールが結論を暗示する条件の結合の自然言語表現である限定された環境で、事実とルールを「合理化」することができることが示されている。 これは、トランスフォーマーが自然言語で与えられた知識を推論するために使われることを示唆するので、我々は、共通の知識の形式とその対応する推論、すなわち行動の影響に関する推論に関して、厳密な評価を行う。 行動と変化に関する推論は、AIの初期からAIの知識表現サブフィールドにおける最重要課題であり、最近では常識的質問応答において目立った側面となっている。 我々は、自然言語で4つのアクションドメイン(Blocks World、Logistics、Dock-Worker-Robots、Generic Domain)を検討し、これらのドメインにおけるアクションの効果を推論するQAデータセットを作成します。 a)これらの領域における推論を学習するトランスフォーマーの能力について検討し、(b)一般的なドメインから他のドメインへの学習を伝達する。

A recent work has shown that transformers are able to "reason" with facts and rules in a limited setting where the rules are natural language expressions of conjunctions of conditions implying a conclusion. Since this suggests that transformers may be used for reasoning with knowledge given in natural language, we do a rigorous evaluation of this with respect to a common form of knowledge and its corresponding reasoning -- the reasoning about effects of actions. Reasoning about action and change has been a top focus in the knowledge representation subfield of AI from the early days of AI and more recently it has been a highlight aspect in common sense question answering. We consider four action domains (Blocks World, Logistics, Dock-Worker-Robots and a Generic Domain) in natural language and create QA datasets that involve reasoning about the effects of actions in these domains. We investigate the ability of transformers to (a) learn to reason in these domains and (b) transfer that learning from the generic domains to the other domains.
翻訳日:2021-05-02 07:40:49 公開日:2020-12-17
# 畳み込みニューラルネットワークを用いたマルチモーダル深さ推定

Multi-Modal Depth Estimation Using Convolutional Neural Networks ( http://arxiv.org/abs/2012.09667v1 )

ライセンス: Link先を確認
Sadique Adnan Siddiqui, Axel Vierling and Karsten Berns(参考訳) 本稿では,厳密な距離センサデータと単一カメラ画像から,厳密な奥行き予測の問題点について考察する。 本研究は,Deep Learning アプローチの適用による深度推定における,カメラ,レーダー,ライダーなどのセンサモードの重要性について検討する。 リダーはレーダよりも深度感知能力が高く、多くの過去の研究でカメラ画像と統合されているが、ロバストなレーダ距離データとカメラ画像の融合に基づくCNNの深度推定はあまり研究されていない。 本研究では,高密度特徴抽出のための初期化のために高パフォーマンス事前学習モデルを用いたエンコーダと,所望の深さをアップサンプリングし予測するデコーダとからなる,転置学習手法を用いて深層回帰ネットワークを提案する。 これらの結果は,CARLAシミュレータを用いて作成したNuscenes,KITTI,およびSyntheticデータセットで実証された。 また、建設現場でクレーンから撮影したトップビューのズームカメラ画像を評価し、地上からの重荷を積んだクレーンブームの距離を推定し、安全クリティカルな用途のユーザビリティを示す。

This paper addresses the problem of dense depth predictions from sparse distance sensor data and a single camera image on challenging weather conditions. This work explores the significance of different sensor modalities such as camera, Radar, and Lidar for estimating depth by applying Deep Learning approaches. Although Lidar has higher depth-sensing abilities than Radar and has been integrated with camera images in lots of previous works, depth estimation using CNN's on the fusion of robust Radar distance data and camera images has not been explored much. In this work, a deep regression network is proposed utilizing a transfer learning approach consisting of an encoder where a high performing pre-trained model has been used to initialize it for extracting dense features and a decoder for upsampling and predicting desired depth. The results are demonstrated on Nuscenes, KITTI, and a Synthetic dataset which was created using the CARLA simulator. Also, top-view zoom-camera images captured from the crane on a construction site are evaluated to estimate the distance of the crane boom carrying heavy loads from the ground to show the usability in safety-critical applications.
翻訳日:2021-05-02 07:40:31 公開日:2020-12-17
# ニューラルネットワーク圧縮を用いた効率的なCNN-LSTM画像キャプション

Efficient CNN-LSTM based Image Captioning using Neural Network Compression ( http://arxiv.org/abs/2012.09708v1 )

ライセンス: Link先を確認
Harshit Rampal, Aman Mohanty(参考訳) 現代のニューラルネットワークは、コンピュータビジョン、自然言語処理および関連する分野のタスクにおけるアートパフォーマンスの状態を達成している。 しかし、彼らは、リソース制限されたエッジデバイスへのデプロイをさらに阻害する、猛烈なメモリと計算の食欲で悪名高い。 エッジデプロイメントを実現するために、研究者はネットワークの有効性を損なうことなく圧縮するプラニングと量子化アルゴリズムを開発した。 このような圧縮アルゴリズムはスタンドアロンのCNNおよびRNNアーキテクチャで広く実験されているが、本研究では、CNN-LSTMベースの画像キャプチャーモデルの非従来型エンドツーエンド圧縮パイプラインを示す。 このモデルは、flickr8kデータセット上のエンコーダとLSTMデコーダとしてVGG16またはResNet50を使用してトレーニングされる。 次に,異なる圧縮アーキテクチャがモデルに与える影響を調べ,モデルサイズを73.1%削減し,推論時間を71.3%削減し,非圧縮アーキテクチャに比べてbleuスコアを7.7%向上させる圧縮アーキテクチャを設計する。

Modern Neural Networks are eminent in achieving state of the art performance on tasks under Computer Vision, Natural Language Processing and related verticals. However, they are notorious for their voracious memory and compute appetite which further obstructs their deployment on resource limited edge devices. In order to achieve edge deployment, researchers have developed pruning and quantization algorithms to compress such networks without compromising their efficacy. Such compression algorithms are broadly experimented on standalone CNN and RNN architectures while in this work, we present an unconventional end to end compression pipeline of a CNN-LSTM based Image Captioning model. The model is trained using VGG16 or ResNet50 as an encoder and an LSTM decoder on the flickr8k dataset. We then examine the effects of different compression architectures on the model and design a compression architecture that achieves a 73.1% reduction in model size, 71.3% reduction in inference time and a 7.7% increase in BLEU score as compared to its uncompressed counterpart.
翻訳日:2021-05-02 07:40:14 公開日:2020-12-17
# ReferentialGym: (Visual) Referential Gamesにおける言語創発と接地のための命名と枠組み

ReferentialGym: A Nomenclature and Framework for Language Emergence & Grounding in (Visual) Referential Games ( http://arxiv.org/abs/2012.09486v1 )

ライセンス: Link先を確認
Kevin Denamgana\"i and James Alfred Walker(参考訳) 自然言語は、人間が情報を伝達し、共通の目標に向けて協力するための強力なツールである。 彼らの値はコンポジション性、階層性、リカレント構文といったいくつかの主要な特性に関係しており、計算言語学者は言語ゲームによって引き起こされる人工言語における出現を研究している。 ごく最近になって、AIコミュニティは、より良いヒューマンマシンインターフェースに向けた言語出現と基盤の研究を開始した。 例えば、対話型/会話型AIアシスタントは、自身のビジョンと進行中の会話を関連付けることができる。 本稿では,本研究への2つの貢献について述べる。 第一に, 言語創発と接地の研究における主なイニシアティブを理解するための命名法を提案し, 仮定と制約のバリエーションを考察した。 次に、PyTorchベースのディープラーニングフレームワークReferentialGymを紹介します。 主要なアルゴリズムとメトリクスのベースライン実装を提供することで、多くの異なる機能やアプローチに加えて、referentialgymはフィールドへの参入障壁を緩和し、コミュニティに共通の実装を提供する。

Natural languages are powerful tools wielded by human beings to communicate information and co-operate towards common goals. Their values lie in some main properties like compositionality, hierarchy and recurrent syntax, which computational linguists have been researching the emergence of in artificial languages induced by language games. Only relatively recently, the AI community has started to investigate language emergence and grounding working towards better human-machine interfaces. For instance, interactive/conversa tional AI assistants that are able to relate their vision to the ongoing conversation. This paper provides two contributions to this research field. Firstly, a nomenclature is proposed to understand the main initiatives in studying language emergence and grounding, accounting for the variations in assumptions and constraints. Secondly, a PyTorch based deep learning framework is introduced, entitled ReferentialGym, which is dedicated to furthering the exploration of language emergence and grounding. By providing baseline implementations of major algorithms and metrics, in addition to many different features and approaches, ReferentialGym attempts to ease the entry barrier to the field and provide the community with common implementations.
翻訳日:2021-05-02 07:39:56 公開日:2020-12-17
# 高出力同期深部RL

High-Throughput Synchronous Deep RL ( http://arxiv.org/abs/2012.09849v1 )

ライセンス: Link先を確認
Iou-Jen Liu and Raymond A. Yeh and Alexander G. Schwing(参考訳) 深層強化学習(RL)は計算的に要求され、多くのデータポイントの処理を必要とする。 同期メソッドは、データスループットを低くしながらトレーニングの安定性を楽しむ。 対照的に、非同期メソッドは高いスループットを実現するが、安定性の問題や'スタックポリシー'によるサンプル効率の低下に悩まされる。 両手法の利点を組み合わせるために,HTS-RL(High-Through put Synchronous Deep Reinforcement Learning)を提案する。 HTS-RLでは,学習とロールアウトを同時に実施し,「安定ポリシー」を回避するシステム設計を考案し,アクターが完全な決定性を維持しつつ,非同期で環境レプリカと対話することを保証する。 我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。 同期ベースラインと比較して、HTS-RLは2-6$\times$高速である。 最先端の非同期手法と比較して、HTS-RLは競争力があり、平均的なエピソード報酬を一貫して達成する。

Deep reinforcement learning (RL) is computationally demanding and requires processing of many data points. Synchronous methods enjoy training stability while having lower data throughput. In contrast, asynchronous methods achieve high throughput but suffer from stability issues and lower sample efficiency due to `stale policies.' To combine the advantages of both methods we propose High-Throughput Synchronous Deep Reinforcement Learning (HTS-RL). In HTS-RL, we perform learning and rollouts concurrently, devise a system design which avoids `stale policies' and ensure that actors interact with environment replicas in an asynchronous manner while maintaining full determinism. We evaluate our approach on Atari games and the Google Research Football environment. Compared to synchronous baselines, HTS-RL is 2-6$\times$ faster. Compared to state-of-the-art asynchronous methods, HTS-RL has competitive throughput and consistently achieves higher average episode rewards.
翻訳日:2021-05-02 07:39:12 公開日:2020-12-17
# 低境界の損失フィードバックの専門家:統一フレームワーク

Experts with Lower-Bounded Loss Feedback: A Unifying Framework ( http://arxiv.org/abs/2012.09537v1 )

ライセンス: Link先を確認
Eyal Gofer and Guy Gilboa(参考訳) 最高の専門家問題の最も顕著なフィードバックモデルは、完全な情報とバンディットモデルである。 本研究では,各ラウンドにおいて,バンディットフィードバックに加えて,各専門家の損失率を低く抑えるために,双方を一般化した単純なフィードバックモデルを検討する。 このような低い境界は、例えば株式取引や特定の測定装置の誤差を評価する際の様々なシナリオで得られる。 このモデルでは、Exp3の修正版に対する最適後悔境界(対数係数まで)を証明し、バンディットと全情報設定の両方に対してアルゴリズムと境界を一般化する。 我々の2段階の統合的後悔分析は、2段階の損失更新をシミュレートし、3つのヘッセン語やヘッセン語のような表現を強調します。 この結果から,各ラウンドにおける専門家の任意のサブセットからのフィードバックを,グラフ構造化されたフィードバックで受けられるようにした。 しかし,本モデルでは,各損失に対する非自明な下限を許容することで,単者レベルでの部分的なフィードバックを許容する。

The most prominent feedback models for the best expert problem are the full information and bandit models. In this work we consider a simple feedback model that generalizes both, where on every round, in addition to a bandit feedback, the adversary provides a lower bound on the loss of each expert. Such lower bounds may be obtained in various scenarios, for instance, in stock trading or in assessing errors of certain measurement devices. For this model we prove optimal regret bounds (up to logarithmic factors) for modified versions of Exp3, generalizing algorithms and bounds both for the bandit and the full-information settings. Our second-order unified regret analysis simulates a two-step loss update and highlights three Hessian or Hessian-like expressions, which map to the full-information regret, bandit regret, and a hybrid of both. Our results intersect with those for bandits with graph-structured feedback, in that both settings can accommodate feedback from an arbitrary subset of experts on each round. However, our model also accommodates partial feedback at the single-expert level, by allowing non-trivial lower bounds on each loss.
翻訳日:2021-05-02 07:38:25 公開日:2020-12-17
# 対称ラプラシアン逆行列を用いた混合メンバーシップの推定

Estimating mixed-memberships using the Symmetric Laplacian Inverse Matrix ( http://arxiv.org/abs/2012.09561v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) コミュニティ検出はネットワーク分析においてよく研究されており、あるネットワークに対して高速で統計的に分析可能なスペクトルクラスタリングが人気である。 しかし、混成会員コミュニティ検出のより現実的なケースは依然として課題である。 本稿では,混合会員コミュニティ検出のためのスペクトルクラスタリング手法Mixed-SLIMを提案する。 混合SLIMはシンメトリゼーションされたラプラシア逆行列 (SLIM) (Jing et al) に基づいて設計されている。 2021年) 度補正混合メンバーシップ(dcmm)モデル。 このアルゴリズムとその正規化バージョン Mixed-SLIM {\tau} は、温和な条件下で漸近的に整合していることを示す。 一方,Mixed-SLIMアポとその正規化バージョンであるMixed-SLIM {\tau}approは,大規模ネットワークを扱う場合のSLIM行列を近似することで提供する。 これらの4つの混合SLIM法は,コミュニティ検出問題と混合コミュニティ検出問題の両方において,シミュレーションにおける最先端の手法と実際の実験データセットより優れている。

Community detection has been well studied in network analysis, and one popular technique is spectral clustering which is fast and statistically analyzable for detect-ing clusters for given networks. But the more realistic case of mixed membership community detection remains a challenge. In this paper, we propose a new spectral clustering method Mixed-SLIM for mixed membership community detection. Mixed-SLIM is designed based on the symmetrized Laplacian inverse matrix (SLIM) (Jing et al. 2021) under the degree-corrected mixed membership (DCMM) model. We show that this algorithm and its regularized version Mixed-SLIM {\tau} are asymptotically consistent under mild conditions. Meanwhile, we provide Mixed-SLIM appro and its regularized version Mixed-SLIM {\tau}appro by approximating the SLIM matrix when dealing with large networks in practice. These four Mixed-SLIM methods outperform state-of-art methods in simulations and substantial empirical datasets for both community detection and mixed membership community detection problems.
翻訳日:2021-05-02 07:38:06 公開日:2020-12-17
# DenseHMM:Dense表現の学習による隠れマルコフモデル学習

DenseHMM: Learning Hidden Markov Models by Learning Dense Representations ( http://arxiv.org/abs/2012.09783v1 )

ライセンス: Link先を確認
Joachim Sicking, Maximilian Pintz, Maram Akila, Tim Wirtz(参考訳) 本研究では,隠れマルコフモデル(hidden markov model:hmms)の修正法である densehmm を提案する。 標準的なHMMと比較して、遷移確率は原子ではなく、カーネル化によるこれらの表現で構成されている。 本手法は制約なしおよび勾配ベース最適化を可能にする。 本稿では,baum-welchアルゴリズムの改良と直接共起最適化という2つの最適化手法を提案する。 後者は高度にスケーラブルで、標準的なhmmと比べて経験上パフォーマンスが損なわれない。 カーネル化の非線形性は表現の表現性に不可欠であることを示す。 DenseHMMの学習された共起物やログのような性質は、合成および生医学的なデータセットで経験的に研究されている。

We propose DenseHMM - a modification of Hidden Markov Models (HMMs) that allows to learn dense representations of both the hidden states and the observables. Compared to the standard HMM, transition probabilities are not atomic but composed of these representations via kernelization. Our approach enables constraint-free and gradient-based optimization. We propose two optimization schemes that make use of this: a modification of the Baum-Welch algorithm and a direct co-occurrence optimization. The latter one is highly scalable and comes empirically without loss of performance compared to standard HMMs. We show that the non-linearity of the kernelization is crucial for the expressiveness of the representations. The properties of the DenseHMM like learned co-occurrences and log-likelihoods are studied empirically on synthetic and biomedical datasets.
翻訳日:2021-05-02 07:37:51 公開日:2020-12-17
# Marginal Likelihood Maximizationによるニューラルネットワークの初期化誘導

Guiding Neural Network Initialization via Marginal Likelihood Maximization ( http://arxiv.org/abs/2012.09943v1 )

ライセンス: Link先を確認
Anthony S. Tai, Chunfeng Huang(参考訳) 本稿では,ハイパーパラメータ選択をニューラルネットワークの初期化に導くための簡易なデータ駆動手法を提案する。 モデル初期化に望ましいハイパーパラメータ値を推定するために、対応する活性化関数と共分散関数を持つガウス過程モデルとニューラルネットワークの関係を利用する。 実験の結果,実験条件下でのmnist分類タスクの最適に近い予測性能が得られた。 さらに,提案手法の整合性を示す実験結果から,より少ないトレーニングセットで計算コストを大幅に削減できることが示唆された。

We propose a simple, data-driven approach to help guide hyperparameter selection for neural network initialization. We leverage the relationship between neural network and Gaussian process models having corresponding activation and covariance functions to infer the hyperparameter values desirable for model initialization. Our experiment shows that marginal likelihood maximization provides recommendations that yield near-optimal prediction performance on MNIST classification task under experiment constraints. Furthermore, our empirical results indicate consistency in the proposed technique, suggesting that computation cost for the procedure could be significantly reduced with smaller training sets.
翻訳日:2021-05-02 07:37:39 公開日:2020-12-17
# ベイズニューラルネットワークを用いた高次元レベルセット推定

High Dimensional Level Set Estimation with Bayesian Neural Network ( http://arxiv.org/abs/2012.09973v1 )

ライセンス: Link先を確認
Huong Ha, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) レベルセット推定(LSE)は、材料設計、バイオテクノロジー、機械操作テストなど様々な分野の応用において重要な問題である。 既存の技術ではスケーラビリティの問題、すなわちこれらの手法は高次元入力ではうまく動作しない。 本稿では,ベイズニューラルネットワークを用いた高次元LSE問題の解法を提案する。 特に, (1) しきい値レベルが固定ユーザ指定値である場合の \textit{explicit} lse問題, (2) 目標関数の(未知)最大値の割合として閾値が定義される場合の \textit{implicit} lse問題である。 各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングし、レベル設定精度を最大に向上させる。 さらに,提案する取得関数の理論的時間複雑性を解析し,ネットワークハイパーパラメータを効率的に調整し,高いモデル精度を達成するための実用的な手法を提案する。 合成データと実世界のデータの両方における数値実験により,提案手法が従来の最先端手法よりも優れた結果が得られることを示した。

Level Set Estimation (LSE) is an important problem with applications in various fields such as material design, biotechnology, machine operational testing, etc. Existing techniques suffer from the scalability issue, that is, these methods do not work well with high dimensional inputs. This paper proposes novel methods to solve the high dimensional LSE problems using Bayesian Neural Networks. In particular, we consider two types of LSE problems: (1) \textit{explicit} LSE problem where the threshold level is a fixed user-specified value, and, (2) \textit{implicit} LSE problem where the threshold level is defined as a percentage of the (unknown) maximum of the objective function. For each problem, we derive the corresponding theoretic information based acquisition function to sample the data points so as to maximally increase the level set accuracy. Furthermore, we also analyse the theoretical time complexity of our proposed acquisition functions, and suggest a practical methodology to efficiently tune the network hyper-parameters to achieve high model accuracy. Numerical experiments on both synthetic and real-world datasets show that our proposed method can achieve better results compared to existing state-of-the-art approaches.
翻訳日:2021-05-02 07:37:29 公開日:2020-12-17
# 敵防衛としてのDenoising Strategieの限界について

On the Limitations of Denoising Strategies as Adversarial Defenses ( http://arxiv.org/abs/2012.09384v1 )

ライセンス: Link先を確認
Zhonghan Niu, Zhaoxi Chen, Linyi Li, Yubin Yang, Bo Li, Jinfeng Yi(参考訳) 機械学習モデルに対する敵対的な攻撃が懸念を増す中、多くのデノワズベースの防御アプローチが提案されている。 本稿では,データのデノイジングと再構成($f+$逆$f$,$f-if$フレームワーク)による対称変換という形で防衛戦略を要約・分析する。 特に、これらの認知戦略を3つの側面(すなわち)から分類する。 空間領域、周波数領域、潜在空間においてそれぞれ雑音化される)。 通常、対向的な例で防御が行われ、画像と摂動の両方が修正され、摂動に対してどのように防御するかを判断することは困難である。 直感的にこれらの難読化戦略の頑健さを評価するため、敵の雑音自体を防御するために直接適用し、良識を犠牲にするのを防ぎます。 意外なことに、実験の結果、各次元の摂動の大部分を排除しても、満足な堅牢性を得るのは難しいことが示されている。 以上の結果と解析に基づき,ロバスト性を改善するため,特徴領域の異なる周波数帯域に対する適応圧縮戦略を提案する。 実験の結果,適応圧縮戦略は,既存手法と比較して,逆摂動の抑制やロバスト性の向上を可能にした。

As adversarial attacks against machine learning models have raised increasing concerns, many denoising-based defense approaches have been proposed. In this paper, we summarize and analyze the defense strategies in the form of symmetric transformation via data denoising and reconstruction (denoted as $F+$ inverse $F$, $F-IF$ Framework). In particular, we categorize these denoising strategies from three aspects (i.e. denoising in the spatial domain, frequency domain, and latent space, respectively). Typically, defense is performed on the entire adversarial example, both image and perturbation are modified, making it difficult to tell how it defends against the perturbations. To evaluate the robustness of these denoising strategies intuitively, we directly apply them to defend against adversarial noise itself (assuming we have obtained all of it), which saving us from sacrificing benign accuracy. Surprisingly, our experimental results show that even if most of the perturbations in each dimension is eliminated, it is still difficult to obtain satisfactory robustness. Based on the above findings and analyses, we propose the adaptive compression strategy for different frequency bands in the feature domain to improve the robustness. Our experiment results show that the adaptive compression strategies enable the model to better suppress adversarial perturbations, and improve robustness compared with existing denoising strategies.
翻訳日:2021-05-02 07:37:07 公開日:2020-12-17
# 自律走行のための時間ライダーフレーム予測

Temporal LiDAR Frame Prediction for Autonomous Driving ( http://arxiv.org/abs/2012.09409v1 )

ライセンス: Link先を確認
David Deng and Avideh Zakhor(参考訳) ダイナミックなシーンで未来を予測することは、自律運転やロボット工学など、多くの分野において重要である。 本稿では,従来のLiDARフレームを予測するための新しいニューラルネットワークアーキテクチャのクラスを提案する。 このアプリケーションの基本的真理は、単にシーケンスの次のフレームであるので、自己教師型でモデルをトレーニングすることができる。 提案アーキテクチャはFlowNet3DとDynamic Graph CNNに基づいている。 我々は、損失関数と評価指標として、Chamfer Distance (CD) と Earth Mover's Distance (EMD) を用いる。 新たにリリースされたnuScenesデータセットを使ってモデルをトレーニングし、評価し、いくつかのベースラインでそれらのパフォーマンスと複雑さを特徴付ける。 FlowNet3Dを直接使用するのに比べ、提案するアーキテクチャはCDとEMDをほぼ1桁小さくする。 さらに, ラベル付き監視を使わずに, 合理的なシーンフロー近似を生成できることを示す。

Anticipating the future in a dynamic scene is critical for many fields such as autonomous driving and robotics. In this paper we propose a class of novel neural network architectures to predict future LiDAR frames given previous ones. Since the ground truth in this application is simply the next frame in the sequence, we can train our models in a self-supervised fashion. Our proposed architectures are based on FlowNet3D and Dynamic Graph CNN. We use Chamfer Distance (CD) and Earth Mover's Distance (EMD) as loss functions and evaluation metrics. We train and evaluate our models using the newly released nuScenes dataset, and characterize their performance and complexity with several baselines. Compared to directly using FlowNet3D, our proposed architectures achieve CD and EMD nearly an order of magnitude lower. In addition, we show that our predictions generate reasonable scene flow approximations without using any labelled supervision.
翻訳日:2021-05-02 07:36:32 公開日:2020-12-17
# エピソード, 原型的ネットワーク, 数少ない学習について

On Episodes, Prototypical Networks, and Few-shot Learning ( http://arxiv.org/abs/2012.09831v1 )

ライセンス: Link先を確認
Steinar Laenen and Luca Bertinetto(参考訳) エピソディクス学習は、少数の学習に興味を持つ研究者や実践者の間で人気のある実践である。 一連の学習問題のトレーニングを組織化し、それぞれが小さな"サポート"セットと"クエリ"セットに依存して、評価中に遭遇する数少ない状況を模倣する。 本稿では,この手法を応用したアルゴリズムの2つである,プロトタイプネットワークとマッチングネットワークにおけるエピソード学習の有用性について検討する。 驚くべきことに、私たちの実験では、プロトタイプネットワークとマッチングネットワークでは、トレーニングサンプルをサポートとクエリセットに分離するエピソディクス学習戦略を使うのは、トレーニングバッチを利用するデータ非効率な方法である、ということが分かりました。 古典的な近傍成分分析と密接に関連しているこれらの「非エピソジック」変種は、複数のデータセットにおけるエピソジックな特徴よりも確実に改善され、非常に単純なにもかかわらず(プロトタイプネットワークの場合)最先端技術と競合する正確性を達成する。

Episodic learning is a popular practice among researchers and practitioners interested in few-shot learning. It consists of organising training in a series of learning problems, each relying on small "support" and "query" sets to mimic the few-shot circumstances encountered during evaluation. In this paper, we investigate the usefulness of episodic learning in Prototypical Networks and Matching Networks, two of the most popular algorithms making use of this practice. Surprisingly, in our experiments we found that, for Prototypical and Matching Networks, it is detrimental to use the episodic learning strategy of separating training samples between support and query set, as it is a data-inefficient way to exploit training batches. These "non-episodic" variants, which are closely related to the classic Neighbourhood Component Analysis, reliably improve over their episodic counterparts in multiple datasets, achieving an accuracy that (in the case of Prototypical Networks) is competitive with the state-of-the-art, despite being extremely simple.
翻訳日:2021-05-02 07:36:19 公開日:2020-12-17
# ビデオ分類と推薦のための平滑化ガウス混合モデル

Smoothed Gaussian Mixture Models for Video Classification and Recommendation ( http://arxiv.org/abs/2012.11673v1 )

ライセンス: Link先を確認
Sirjan Kafle, Aman Gupta, Xue Xia, Ananth Sankar, Xi Chen, Di Wen, Liang Zhang(参考訳) VLAD(Vector of Locally Aggregated Descriptors)のようなクラスタ・アンド・アグリゲート技術や、NetVLADのようなエンドツーエンドの差別的に訓練された同等品は、最近ビデオ分類やアクション認識タスクで人気がある。 これらの手法は、ビデオフレームをクラスタに割り当て、各クラスタの平均に関するフレームの残余を集約することで、ビデオを表現する。 一部のクラスタはビデオ特有のデータが少ないため、これらの機能は騒がしい。 本稿では,sugmented gaussian mixture model (sgmm) と呼ばれる新しいクラスタ・アンド・アグリゲーション法と,そのエンドツーエンドの識別訓練された等価値である deep smoothed gaussian mixture model (dsgmm) を提案する。 SGMMは、そのビデオのために訓練されたガウス混合モデル(GMM)のパラメータによって、各ビデオを表す。 ローカウントクラスタは、多数のビデオでトレーニングされたユニバーサルバックグラウンドモデル(UBM)を用いて、ビデオ固有の見積をスムースにすることで対処される。 VLADに対するSGMMの主な利点はスムージングであり、少数のトレーニングサンプルに対する感度が低下する。 youtube-8m分類タスクの広範な実験を通じて、sgmm/dsgmmはvlad/netvladよりも小さいが統計的に有意なマージンで一貫して優れていることを示した。 また、LinkedInで作成されたデータセットを使って、メンバーがアップロードされたビデオを見るかどうかを予測する。

Cluster-and-aggregat e techniques such as Vector of Locally Aggregated Descriptors (VLAD), and their end-to-end discriminatively trained equivalents like NetVLAD have recently been popular for video classification and action recognition tasks. These techniques operate by assigning video frames to clusters and then representing the video by aggregating residuals of frames with respect to the mean of each cluster. Since some clusters may see very little video-specific data, these features can be noisy. In this paper, we propose a new cluster-and-aggregat e method which we call smoothed Gaussian mixture model (SGMM), and its end-to-end discriminatively trained equivalent, which we call deep smoothed Gaussian mixture model (DSGMM). SGMM represents each video by the parameters of a Gaussian mixture model (GMM) trained for that video. Low-count clusters are addressed by smoothing the video-specific estimates with a universal background model (UBM) trained on a large number of videos. The primary benefit of SGMM over VLAD is smoothing which makes it less sensitive to small number of training samples. We show, through extensive experiments on the YouTube-8M classification task, that SGMM/DSGMM is consistently better than VLAD/NetVLAD by a small but statistically significant margin. We also show results using a dataset created at LinkedIn to predict if a member will watch an uploaded video.
翻訳日:2021-05-02 07:36:00 公開日:2020-12-17
# ポインタージェネレータネットワークを用いた法域における名前付きエンティティ認識

Named Entity Recognition in the Legal Domain using a Pointer Generator Network ( http://arxiv.org/abs/2012.09936v1 )

ライセンス: Link先を確認
Stavroula Skylaki, Ali Oskooei, Omar Bari, Nadja Herger, Zac Kriegman (Thomson Reuters Labs)(参考訳) 名前付きエンティティ認識(NER)は、名前付きエンティティを非構造化テキストで識別し分類するタスクである。 法領域において,利害関係者は,当事者,裁判官,裁判所の名称,事件番号,法律への言及を含むことができる。 我々は, 訴訟のPDFファイルからノイズテキストを抽出し, 法的NERの問題点を米国裁判所から調査した。 NERシステムの「ゴールドスタンダード」トレーニングデータは、テキストの各トークンに対応するエンティティまたは非エンティティラベルのアノテーションを提供する。 文章中のエンティティの正確な位置が不明で、エンティティがタイプミスやocrミスを含む可能性があるという点で、gold標準nerデータとは異なる部分的な完全なトレーニングデータのみを扱う。 ノイズの多いトレーニングデータの課題を克服するためです テキスト抽出エラーおよび/またはタイプミスおよび未知ラベルインデックスは、nerタスクをテキストからテキストへのシーケンス生成タスクとして定式化し、ポインタ生成ネットワークを訓練して文書内のエンティティを生成する。 金標準データがない場合、ポインタジェネレータはNERに有効であり、長い法律文書において一般的なNERニューラルネットワークアーキテクチャよりも優れていることを示す。

Named Entity Recognition (NER) is the task of identifying and classifying named entities in unstructured text. In the legal domain, named entities of interest may include the case parties, judges, names of courts, case numbers, references to laws etc. We study the problem of legal NER with noisy text extracted from PDF files of filed court cases from US courts. The "gold standard" training data for NER systems provide annotation for each token of the text with the corresponding entity or non-entity label. We work with only partially complete training data, which differ from the gold standard NER data in that the exact location of the entities in the text is unknown and the entities may contain typos and/or OCR mistakes. To overcome the challenges of our noisy training data, e.g. text extraction errors and/or typos and unknown label indices, we formulate the NER task as a text-to-text sequence generation task and train a pointer generator network to generate the entities in the document rather than label them. We show that the pointer generator can be effective for NER in the absence of gold standard data and outperforms the common NER neural network architectures in long legal documents.
翻訳日:2021-05-02 07:35:32 公開日:2020-12-17
# 機械学習による量子状態再構成の実験的実現可能性について

On the experimental feasibility of quantum state reconstruction via machine learning ( http://arxiv.org/abs/2012.09432v1 )

ライセンス: Link先を確認
Sanjaya Lohani, Thomas A. Searles, Brian T. Kirby, and Ryan T. Glasser(参考訳) 最大4量子ビットのシステムに対して、推論とトレーニングの両方の観点から機械学習に基づく量子状態再構成手法のリソーススケーリングを決定する。 さらに,高次元システムのトモグラフィーで発生する可能性のある低カウント状態におけるシステム性能について検討した。 最後に、IBM Q量子コンピュータに量子状態再構成法を実装し、その結果を確認した。

We determine the resource scaling of machine learning-based quantum state reconstruction methods, in terms of both inference and training, for systems of up to four qubits. Further, we examine system performance in the low-count regime, likely to be encountered in the tomography of high-dimensional systems. Finally, we implement our quantum state reconstruction method on a IBM Q quantum computer and confirm our results.
翻訳日:2021-05-02 07:35:13 公開日:2020-12-17
# 幾何と密度のバランス:高次元データを用いた経路距離

Balancing Geometry and Density: Path Distances on High-Dimensional Data ( http://arxiv.org/abs/2012.09385v1 )

ライセンス: Link先を確認
Anna Little, Daniel McKenzie and James Murphy(参考訳) pwspds(power-weighte d shortest-path distances)の新しい幾何学的および計算的解析を行った。 これらの指標が基礎となるデータにおける密度と幾何のバランスをとる方法を明らかにすることで、それらの重要なパラメータを明確にし、実際にどのように選択されるかについて議論する。 カーネルベースの教師なしおよび半教師付き機械学習における密度の広範な役割を示す、関連するデータ駆動メトリクスと比較する。 計算学的には、完全重み付きグラフ上のPWSPDと、重み付き隣接グラフ上の類似点を関連付け、ほぼ最適である同値性に対する高い確率保証を提供する。 パーコレーション理論との結びつきは、有限標本設定におけるPWSPDのバイアスと分散を推定するために展開される。 理論的結果は、幅広いデータ設定に対するPWSPDの汎用性を実証する実証実験によって裏付けられている。 論文全体では、基礎となるデータは低次元多様体からサンプリングされ、その周囲の次元ではなく、この多様体の固有次元に決定的に依存することが求められている。

New geometric and computational analyses of power-weighted shortest-path distances (PWSPDs) are presented. By illuminating the way these metrics balance density and geometry in the underlying data, we clarify their key parameters and discuss how they may be chosen in practice. Comparisons are made with related data-driven metrics, which illustrate the broader role of density in kernel-based unsupervised and semi-supervised machine learning. Computationally, we relate PWSPDs on complete weighted graphs to their analogues on weighted nearest neighbor graphs, providing high probability guarantees on their equivalence that are near-optimal. Connections with percolation theory are developed to establish estimates on the bias and variance of PWSPDs in the finite sample setting. The theoretical results are bolstered by illustrative experiments, demonstrating the versatility of PWSPDs for a wide range of data settings. Throughout the paper, our results require only that the underlying data is sampled from a low-dimensional manifold, and depend crucially on the intrinsic dimension of this manifold, rather than its ambient dimension.
翻訳日:2021-05-02 07:35:07 公開日:2020-12-17
# 深層学習におけるアンサンブル,知識蒸留,自己蒸留の理解に向けて

Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning ( http://arxiv.org/abs/2012.09816v1 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu and Yuanzhi Li(参考訳) 深層学習モデルのアンサンブルがテスト精度を向上させる方法と、知識蒸留を用いた単一モデルにアンサンブルの優れた性能を蒸留する方法を正式に研究する。 我々は,このアンサンブルが,一意に訓練された数個のニューラルネットワークのパットアーキテクチャによる出力の平均であり,パットデータセット上で,パットアルゴリズムを用いてトレーニングされている場合,初期化に使用するランダムなシードによってのみ異なる場合を考える。 深層学習におけるアンサンブル・ナレッジ蒸留は従来の学習理論とは全く異なる働きをしており、特にランダム特徴マッピングやニューラルネットワーク-タンジェント-カーネル特徴マッピングとは異なっている。 そこで, 深層学習におけるアンサンブルと知識蒸留を適切に理解するために, データが「マルチビュー」と呼ばれる構造を持つ場合, 独立に訓練されたニューラルネットワークのアンサンブルがテスト精度を向上し, 真のラベルの代わりにアンサンブルの出力に適合するように単一のモデルを訓練することにより, 優れたテスト精度を1つのモデルに証明可能とする理論を開発した。 その結果、従来の定理とは全く異なる方法で、アンサンブルがディープラーニングでどのように機能するか、そして、真のデータラベルと比較して、知識蒸留に使用できるアンサンブルのアウトプットに「ダーク知識」がどのように隠されているかに光を当てている。 最後に, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。

We formally study how Ensemble of deep learning models can improve test accuracy, and how the superior performance of ensemble can be distilled into a single model using Knowledge Distillation. We consider the challenging case where the ensemble is simply an average of the outputs of a few independently trained neural networks with the SAME architecture, trained using the SAME algorithm on the SAME data set, and they only differ by the random seeds used in the initialization. We empirically show that ensemble/knowledge distillation in deep learning works very differently from traditional learning theory, especially differently from ensemble of random feature mappings or the neural-tangent-kerne l feature mappings, and is potentially out of the scope of existing theorems. Thus, to properly understand ensemble and knowledge distillation in deep learning, we develop a theory showing that when data has a structure we refer to as "multi-view", then ensemble of independently trained neural networks can provably improve test accuracy, and such superior test accuracy can also be provably distilled into a single model by training a single model to match the output of the ensemble instead of the true label. Our result sheds light on how ensemble works in deep learning in a way that is completely different from traditional theorems, and how the "dark knowledge" is hidden in the outputs of the ensemble -- that can be used in knowledge distillation -- comparing to the true data labels. In the end, we prove that self-distillation can also be viewed as implicitly combining ensemble and knowledge distillation to improve test accuracy.
翻訳日:2021-05-02 07:34:34 公開日:2020-12-17
# 畳み込みニューラルネットワークを用いたコントラスト合成視床核セグメンテーション法

A Contrast Synthesized Thalamic Nuclei Segmentation Scheme using Convolutional Neural Networks ( http://arxiv.org/abs/2012.09386v1 )

ライセンス: Link先を確認
Lavanya Umapathy, Mahesh Bharath Keerthivasan, Natalie M. Zahr, Ali Bilgin, Manojkumar Saranathan(参考訳) 視床核はいくつかの神経疾患に関係している。 WMn-MPRAGE画像は従来のMPRAGE画像と比較して視床内核コントラストが良いことが示されているが、追加の取得は検査時間の増加をもたらす。 本研究では,3次元畳み込みニューラルネットワーク(cnn)を用いた従来型mprage画像からの視床核パーセレーション手法について検討した。 MPRAGE画像から合成したWMn-MPRAGE画像を用いて, 合成コントラストセグメンテーション(NCS)と合成コントラストセグメンテーション(SCS)の2つの3次元CNNを開発した。 mprage image (n=35) とthalamic nuclei labels を用いた2つのセグメンテーションフレームワークをマルチアトラス法を用いて訓練した。 健常者とアルコール使用障害(aud)患者(n=45)のコホートを用いて分節精度と臨床的有用性を評価した。 SCSネットワークは、NCSネットワークと比較すると、前腹側核(P=.001)と後腹側核(P=.01)の体積差が低い中間体生成核(P=.003)とセントロメディア核(P=.01)で高Diceスコアを得た。 Bland-Altman 解析により,SCS ネットワークで予測される実数量と実数量の変動係数の低い一致限界が明らかにされた。 scsネットワークは健常年齢対照群 (p=0.01) と比較し, aud患者で有意な後側核萎縮を認めたが, ncsネットワークでは後側核の急激な萎縮を認めた。 CNNによるコントラスト合成は、従来のMPRAGE画像から高速で正確な視床核セグメンテーションを提供することができる。

Thalamic nuclei have been implicated in several neurological diseases. WMn-MPRAGE images have been shown to provide better intra-thalamic nuclear contrast compared to conventional MPRAGE images but the additional acquisition results in increased examination times. In this work, we investigated 3D Convolutional Neural Network (CNN) based techniques for thalamic nuclei parcellation from conventional MPRAGE images. Two 3D CNNs were developed and compared for thalamic nuclei parcellation using MPRAGE images: a) a native contrast segmentation (NCS) and b) a synthesized contrast segmentation (SCS) using WMn-MPRAGE images synthesized from MPRAGE images. We trained the two segmentation frameworks using MPRAGE images (n=35) and thalamic nuclei labels generated on WMn-MPRAGE images using a multi-atlas based parcellation technique. The segmentation accuracy and clinical utility were evaluated on a cohort comprising of healthy subjects and patients with alcohol use disorder (AUD) (n=45). The SCS network yielded higher Dice scores in the Medial geniculate nucleus (P=.003) and Centromedian nucleus (P=.01) with lower volume differences for Ventral anterior (P=.001) and Ventral posterior lateral (P=.01) nuclei when compared to the NCS network. A Bland-Altman analysis revealed tighter limits of agreement with lower coefficient of variation between true volumes and those predicted by the SCS network. The SCS network demonstrated a significant atrophy in Ventral lateral posterior nucleus in AUD patients compared to healthy age-matched controls (P=0.01), agreeing with previous studies on thalamic atrophy in alcoholism, whereas the NCS network showed spurious atrophy of the Ventral posterior lateral nucleus. CNN-based contrast synthesis prior to segmentation can provide fast and accurate thalamic nuclei segmentation from conventional MPRAGE images.
翻訳日:2021-05-02 07:33:41 公開日:2020-12-17
# 縦型空中画像を用いた栄養不足ストレスの検出と予測

Detection and Prediction of Nutrient Deficiency Stress using Longitudinal Aerial Imagery ( http://arxiv.org/abs/2012.09654v1 )

ライセンス: Link先を確認
Saba Dadsetan, Gisele Rose, Naira Hovakimyan, Jennifer Hobbs(参考訳) 早期に、栄養不足ストレス(NDS)の正確な検出は、環境への影響だけでなく、経済的にも重要であり、毛布の塗布に代えて化学物質の精密適用は、栽培者の運用コストを削減し、環境に不必要に侵入する化学物質の量を削減している。 さらに、早期の処理は損失の量を減らすため、特定の季節に作物の生産を増加させる。 このことを念頭に,高分解能空中画像のシーケンスを収集し,セマンティクスセグメンテーションモデルを構築し,フィールド全体のndsの検出と予測を行う。 私たちの仕事は農業、リモートセンシング、現代のコンピュータビジョンとディープラーニングの交差点にあります。 まず,NDSのフルフィールド検出のためのベースラインを構築し,事前学習,バックボーンアーキテクチャ,入力表現,サンプリング戦略の影響を定量化する。 次に、unetに基づくシングルタイムスタンプモデルを構築して、シーズンの異なるポイントで利用可能な情報量を定量化する。 次に,NDSを示すフィールドの領域を正確に検出するために,UNetと畳み込みLSTM層を組み合わせた時空間アーキテクチャを構築した。 最後に, このアーキテクチャは, 後続飛行(将来3週間以上)でNDSを示すと予測されるフィールドの領域を予測するために, 予報までの距離に応じて, IOUスコア0.47-0.51を維持することができることを示す。 私たちはまた、コンピュータビジョン、リモートセンシング、農業分野にメリットがあると信じているデータセットもリリースします。 この研究は、リモートセンシングと農業の深層学習の発展に寄与し、経済と持続可能性に関する重要な社会的課題に対処している。

Early, precise detection of nutrient deficiency stress (NDS) has key economic as well as environmental impact; precision application of chemicals in place of blanket application reduces operational costs for the growers while reducing the amount of chemicals which may enter the environment unnecessarily. Furthermore, earlier treatment reduces the amount of loss and therefore boosts crop production during a given season. With this in mind, we collect sequences of high-resolution aerial imagery and construct semantic segmentation models to detect and predict NDS across the field. Our work sits at the intersection of agriculture, remote sensing, and modern computer vision and deep learning. First, we establish a baseline for full-field detection of NDS and quantify the impact of pretraining, backbone architecture, input representation, and sampling strategy. We then quantify the amount of information available at different points in the season by building a single-timestamp model based on a UNet. Next, we construct our proposed spatiotemporal architecture, which combines a UNet with a convolutional LSTM layer, to accurately detect regions of the field showing NDS; this approach has an impressive IOU score of 0.53. Finally, we show that this architecture can be trained to predict regions of the field which are expected to show NDS in a later flight -- potentially more than three weeks in the future -- maintaining an IOU score of 0.47-0.51 depending on how far in advance the prediction is made. We will also release a dataset which we believe will benefit the computer vision, remote sensing, as well as agriculture fields. This work contributes to the recent developments in deep learning for remote sensing and agriculture, while addressing a key social challenge with implications for economics and sustainability.
翻訳日:2021-05-02 07:33:04 公開日:2020-12-17
# 人工知能を用いた緑内障視神経頭の構造表現型記述

Describing the Structural Phenotype of the Glaucomatous Optic Nerve Head Using Artificial Intelligence ( http://arxiv.org/abs/2012.09755v1 )

ライセンス: Link先を確認
Satish K. Panda, Haris Cheong, Tin A. Tun, Sripad K. Devella, Ramaswami Krishnadas, Martin L. Buist, Shamira Perera, Ching-Yu Cheng, Tin Aung, Alexandre H. Thi\'ery, and Micha\"el J. A. Girard(参考訳) 視神経頭(ONH)は通常、緑内障の発生と進行に伴う神経・結合組織構造の変化を経験し、これらの変化を監視することは緑内障クリニックの診断と予後の改善に重要である。 onhの構造変化を臨床的に評価するための金標準技術は光コヒーレンストモグラフィ(oct)である。 しかし、octは、網膜神経線維層(rnfl)の厚みなどのいくつかの手工学パラメータの測定に限定されており、まだ緑内障の診断と予後診断のための単独の装置として認定されていない。 これは、ONHの3D OCTスキャンで利用できる膨大な情報が十分に活用されていないためである。 そこで本研究では, onh の oct スキャンからの情報を十分に活用できる深層学習手法を提案し, 緑内障診断ツールとして \textbf{(3)} を使用できることを提案する。 具体的には,本アルゴリズムで同定された構造的特徴は緑内障の臨床観察と関係があることが判明した。 これらの構造的特徴の診断精度は92.0 \pm 2.3 \%$であり、感度は90.0 \pm 2.4 \%$(95 \%$)である。 ステップで等級を変えることで、オンの形状が'非グラコマ'から'グラコマ'状態へ遷移するにつれてどのように変化するかを明らかにすることができた。 我々の研究は緑内障の病態の理解に強い臨床的意味を持ち、将来は視力喪失を予測できるように改善できると考えている。

The optic nerve head (ONH) typically experiences complex neural- and connective-tissue structural changes with the development and progression of glaucoma, and monitoring these changes could be critical for improved diagnosis and prognosis in the glaucoma clinic. The gold-standard technique to assess structural changes of the ONH clinically is optical coherence tomography (OCT). However, OCT is limited to the measurement of a few hand-engineered parameters, such as the thickness of the retinal nerve fiber layer (RNFL), and has not yet been qualified as a stand-alone device for glaucoma diagnosis and prognosis applications. We argue this is because the vast amount of information available in a 3D OCT scan of the ONH has not been fully exploited. In this study we propose a deep learning approach that can: \textbf{(1)} fully exploit information from an OCT scan of the ONH; \textbf{(2)} describe the structural phenotype of the glaucomatous ONH; and that can \textbf{(3)} be used as a robust glaucoma diagnosis tool. Specifically, the structural features identified by our algorithm were found to be related to clinical observations of glaucoma. The diagnostic accuracy from these structural features was $92.0 \pm 2.3 \%$ with a sensitivity of $90.0 \pm 2.4 \% $ (at $95 \%$ specificity). By changing their magnitudes in steps, we were able to reveal how the morphology of the ONH changes as one transitions from a `non-glaucoma' to a `glaucoma' condition. We believe our work may have strong clinical implication for our understanding of glaucoma pathogenesis, and could be improved in the future to also predict future loss of vision.
翻訳日:2021-05-02 07:32:36 公開日:2020-12-17
# 4次元ビュー合成とビデオ処理のためのニューラルラジアンスフロー

Neural Radiance Flow for 4D View Synthesis and Video Processing ( http://arxiv.org/abs/2012.09790v1 )

ライセンス: Link先を確認
Yilun Du, Yinan Zhang, Hong-Xing Yu, Joshua B. Tenenbaum, Jiajun Wu(参考訳) 本稿では,rgb画像から動的シーンの4次元空間-時間表現を学ぶためのニューラル・ラミアンス・フロー(nerflow)を提案する。 我々のアプローチの鍵は、シーンの3D占有率、放射率、ダイナミックスを捉えることを学習する神経暗黙表現を使用することである。 異なるモダリティにまたがる一貫性を強制することにより,水注,ロボットインタラクション,実画像など多様な動的シーンにおける多視点レンダリングが可能となり,空間-時空間ビュー合成における最先端手法を上回っている。 私たちのアプローチは、入力画像が1つのカメラでキャプチャされる場合でも機能します。 さらに,学習表現が先行して暗黙的なシーンとして機能できることを実証し,画像の超解像やノイズ除去といった映像処理タスクを,追加の監督なしに行えることを示した。

We present a method, Neural Radiance Flow (NeRFlow),to learn a 4D spatial-temporal representation of a dynamic scene from a set of RGB images. Key to our approach is the use of a neural implicit representation that learns to capture the 3D occupancy, radiance, and dynamics of the scene. By enforcing consistency across different modalities, our representation enables multi-view rendering in diverse dynamic scenes, including water pouring, robotic interaction, and real images, outperforming state-of-the-art methods for spatial-temporal view synthesis. Our approach works even when inputs images are captured with only one camera. We further demonstrate that the learned representation can serve as an implicit scene prior, enabling video processing tasks such as image super-resolution and de-noising without any additional supervision.
翻訳日:2021-05-02 07:32:10 公開日:2020-12-17
# 動的サイクル整合性を考慮した制御のためのクロスドメイン対応学習

Learning Cross-Domain Correspondence for Control with Dynamics Cycle-Consistency ( http://arxiv.org/abs/2012.09811v1 )

ライセンス: Link先を確認
Qiang Zhang, Tete Xiao, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang(参考訳) 多くのロボティクス問題の核心は、ドメイン間の通信を学習することである。 例えば、模倣学習は人間とロボットの対応を得る必要があり、sim-to-realは物理シミュレータと現実世界の対応を必要とする。 本稿では,表現(視覚と内部状態),物理パラメータ(質量と摩擦),形態(手足の数)の異なる領域間の対応について学ぶことを目的とした。 重要なことに、2つのドメインから無作為かつランダムに収集されたデータを用いて対応を学習する。 本稿では,サイクル整合性制約を用いて2つの領域にまたがる動的ロボット動作を協調する「textit{dynamics cycles」を提案する。 この対応が見つかると、第2のドメインで追加の微調整を必要とせずに、あるドメインでトレーニングされたポリシーを直接他のドメインに転送できます。 我々は,シミュレーションと実ロボットの両方において,様々な問題領域で実験を行う。 本フレームワークは,実ロボットアームの無補間単眼映像とシミュレーションアームの動的状態動作軌跡をペアデータなしで一致させることができる。 結果のビデオデモは、https://sjtuzq.githu b.io/cycle_dynamics. htmlで見ることができる。

At the heart of many robotics problems is the challenge of learning correspondences across domains. For instance, imitation learning requires obtaining correspondence between humans and robots; sim-to-real requires correspondence between physics simulators and the real world; transfer learning requires correspondences between different robotics environments. This paper aims to learn correspondence across domains differing in representation (vision vs. internal state), physics parameters (mass and friction), and morphology (number of limbs). Importantly, correspondences are learned using unpaired and randomly collected data from the two domains. We propose \textit{dynamics cycles} that align dynamic robot behavior across two domains using a cycle-consistency constraint. Once this correspondence is found, we can directly transfer the policy trained on one domain to the other, without needing any additional fine-tuning on the second domain. We perform experiments across a variety of problem domains, both in simulation and on real robot. Our framework is able to align uncalibrated monocular video of a real robot arm to dynamic state-action trajectories of a simulated arm without paired data. Video demonstrations of our results are available at: https://sjtuzq.githu b.io/cycle_dynamics. html .
翻訳日:2021-05-02 07:31:55 公開日:2020-12-17
# マスアート雑音による半空間学習の難易度

Hardness of Learning Halfspaces with Massart Noise ( http://arxiv.org/abs/2012.09720v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) マスアートノイズの存在下でのPAC学習ハーフスペースの複雑さについて検討した。 具体的には、ラベル付き例 $(x, y)$ が分布 $D$ on $\mathbb{R}^{n} \times \{ \pm 1\}$ から与えられたとき、$x$ の辺分布は任意であり、そのラベルはマッサルトノイズが速度 $\eta<1/2$ で崩壊した未知の半空間によって生成されるので、小さな誤分類誤差で仮説を計算したい。 マッサートモデルにおける半空間の効率的な学習可能性の特徴付けは、学習理論における長年の未解決問題である。 最近の研究は、この問題の多項式時間学習アルゴリズムをエラー$\eta+\epsilon$で与えた。 この誤差上限は、情報理論的に最適な$\mathrm{OPT}+\epsilon$の境界から遠く離れることができる。 より最近の研究は、"em exact learning}、すなわちエラー $\mathrm{opt}+\epsilon$ を達成することは統計クエリ(sq)モデルでは難しいことを示した。 本研究では,情報理論の最適誤差と多項式時間SQアルゴリズムで達成できる最良の誤差との間には指数的ギャップが存在することを示す。 特に、我々の下界は、効率的なSQアルゴリズムが任意の多項式係数内で最適誤差を近似できないことを意味する。

We study the complexity of PAC learning halfspaces in the presence of Massart (bounded) noise. Specifically, given labeled examples $(x, y)$ from a distribution $D$ on $\mathbb{R}^{n} \times \{ \pm 1\}$ such that the marginal distribution on $x$ is arbitrary and the labels are generated by an unknown halfspace corrupted with Massart noise at rate $\eta<1/2$, we want to compute a hypothesis with small misclassification error. Characterizing the efficient learnability of halfspaces in the Massart model has remained a longstanding open problem in learning theory. Recent work gave a polynomial-time learning algorithm for this problem with error $\eta+\epsilon$. This error upper bound can be far from the information-theoreti cally optimal bound of $\mathrm{OPT}+\epsilon$. More recent work showed that {\em exact learning}, i.e., achieving error $\mathrm{OPT}+\epsilon$, is hard in the Statistical Query (SQ) model. In this work, we show that there is an exponential gap between the information-theoreti cally optimal error and the best error that can be achieved by a polynomial-time SQ algorithm. In particular, our lower bound implies that no efficient SQ algorithm can approximate the optimal error within any polynomial factor.
翻訳日:2021-05-02 07:31:37 公開日:2020-12-17
# insrl: 遠隔教師付き関係抽出のための複数の情報ソースを用いた多視点学習フレームワーク

InSRL: A Multi-view Learning Framework Fusing Multiple Information Sources for Distantly-supervised Relation Extraction ( http://arxiv.org/abs/2012.09370v1 )

ライセンス: Link先を確認
Zhendong Chu, Haiyun Jiang, Yanghua Xiao, Wei Wang(参考訳) 遠隔監視により、知識ベースを利用して関係抽出のための文の袋を自動的にラベル付けすることができるが、狭くうるさいバッグの問題に苦しむ。 トレーニングデータを補完し、これらの問題を克服するために、追加の情報ソースが緊急に必要となる。 本稿では,知識ベースに広く存在する2つの情報源,すなわちエンティティ記述と多粒体型を導入し,教師付きデータの充実を図る。 我々は、情報ソースを複数のビューと見なし、十分な情報を持つ無傷空間を構築するためにそれらを融合させる。 Intact Space Representation Learning (InSRL) による関係抽出のために, エンドツーエンドのマルチビュー学習フレームワークを提案し, 単一ビューの表現を同時に学習する。 さらに、インナービューとクロスビューアテンションメカニズムを用いて、異なるレベルの重要な情報をエンティティペアベースで強調する。 一般的なベンチマークデータセットの実験結果から,追加の情報ソースの必要性とフレームワークの有効性が示された。 匿名化レビューフェーズの後、複数の情報ソースを持つモデルとデータセットの実装をリリースします。

Distant supervision makes it possible to automatically label bags of sentences for relation extraction by leveraging knowledge bases, but suffers from the sparse and noisy bag issues. Additional information sources are urgently needed to supplement the training data and overcome these issues. In this paper, we introduce two widely-existing sources in knowledge bases, namely entity descriptions, and multi-grained entity types to enrich the distantly supervised data. We see information sources as multiple views and fusing them to construct an intact space with sufficient information. An end-to-end multi-view learning framework is proposed for relation extraction via Intact Space Representation Learning (InSRL), and the representations of single views are jointly learned simultaneously. Moreover, inner-view and cross-view attention mechanisms are used to highlight important information on different levels on an entity-pair basis. The experimental results on a popular benchmark dataset demonstrate the necessity of additional information sources and the effectiveness of our framework. We will release the implementation of our model and dataset with multiple information sources after the anonymized review phase.
翻訳日:2021-05-02 07:31:11 公開日:2020-12-17
# 強化学習による対話における対話的質問の明確化

Interactive Question Clarification in Dialogue via Reinforcement Learning ( http://arxiv.org/abs/2012.09411v1 )

ライセンス: Link先を確認
Xiang Hu, Zujie Wen, Yafang Wang, Xiaolong Li, Gerard de Melo(参考訳) あいまいな質問への対処は、現実世界の対話システムにおける長年の問題である。 質問による明確化はヒューマンインタラクションの一般的な形態であるが,ユーザからより具体的な意図を引き出すための適切な質問を定義することは困難である。 本研究では,元のクエリの改良を提案することにより,あいまいな質問を明確化するための強化モデルを提案する。 まず、コレクション分割問題を定式化し、潜在的な曖昧な意図を区別できるラベルのセットを選択する。 我々は、選択したラベルをインテントフレーズとしてユーザにリストし、さらなる確認を行う。 選択されたラベルと元のユーザクエリは、適切な応答をより容易に識別できる洗練されたクエリとして機能する。 このモデルは、深層ポリシーネットワークを用いた強化学習を用いてトレーニングされる。 我々は,実世界のユーザクリックに基づいてモデルを評価し,いくつかの実験で有意な改善を示す。

Coping with ambiguous questions has been a perennial problem in real-world dialogue systems. Although clarification by asking questions is a common form of human interaction, it is hard to define appropriate questions to elicit more specific intents from a user. In this work, we propose a reinforcement model to clarify ambiguous questions by suggesting refinements of the original query. We first formulate a collection partitioning problem to select a set of labels enabling us to distinguish potential unambiguous intents. We list the chosen labels as intent phrases to the user for further confirmation. The selected label along with the original user query then serves as a refined query, for which a suitable response can more easily be identified. The model is trained using reinforcement learning with a deep policy network. We evaluate our model based on real-world user clicks and demonstrate significant improvements across several different experiments.
翻訳日:2021-05-02 07:30:54 公開日:2020-12-17
# ルーフGAN:住宅用ルーフ形状と関係性の学習

Roof-GAN: Learning to Generate Roof Geometry and Relations for Residential Houses ( http://arxiv.org/abs/2012.09340v1 )

ライセンス: Link先を確認
Yiming Qian, Hao Zhang, Yasutaka Furukawa(参考訳) 本稿では, 住宅用屋根構造の構造的幾何を屋根プリミティブの集合として生成する, 新規な対向ネットワークであるRoof-GANについて述べる。 プリミティブの数を仮定すると、ジェネレータは、1)各ノードのラスター画像としてのプリミティブ幾何からなり、ファセットセグメンテーションと角度をエンコードするグラフ、2)各エッジにおけるプリミティブコリニア/コプランナ関係、3)新しい微分可能ベクトル化器によって生成された各ノードのベクトル形式におけるプリミティブ幾何からなる構造化屋根モデルを生成する。 判別器は、完全なエンドツーエンドアーキテクチャで原始ラスタ幾何学、原始関係、原始ベクトル幾何学を評価するために訓練される。 定量的・質的評価は, 構造幾何生成の課題として提案する新しい指標を用いて, 競合する手法よりも多様で現実的な屋根モデルを生成する手法の有効性を示す。 私たちはコードとデータを共有します。

This paper presents Roof-GAN, a novel generative adversarial network that generates structured geometry of residential roof structures as a set of roof primitives and their relationships. Given the number of primitives, the generator produces a structured roof model as a graph, which consists of 1) primitive geometry as raster images at each node, encoding facet segmentation and angles; 2) inter-primitive colinear/coplanar relationships at each edge; and 3) primitive geometry in a vector format at each node, generated by a novel differentiable vectorizer while enforcing the relationships. The discriminator is trained to assess the primitive raster geometry, the primitive relationships, and the primitive vector geometry in a fully end-to-end architecture. Qualitative and quantitative evaluations demonstrate the effectiveness of our approach in generating diverse and realistic roof models over the competing methods with a novel metric proposed in this paper for the task of structured geometry generation. We will share our code and data.
翻訳日:2021-05-02 07:29:25 公開日:2020-12-17
# 1枚の画像から3次元シーン形状を復元する学習

Learning to Recover 3D Scene Shape from a Single Image ( http://arxiv.org/abs/2012.09365v1 )

ライセンス: Link先を確認
Wei Yin, Jianming Zhang, Oliver Wang, Simon Niklaus, Long Mai, Simon Chen, Chunhua Shen(参考訳) 野生個体における単眼深度推定の有意な進歩にもかかわらず,混合データ深度予測訓練におけるシフト不変再構成損失と未知のカメラ焦点長による未知の深度シフトによる正確な3次元シーン形状の復元には,最近の最新手法では使用できない。 この問題を詳細に検討し,まずは未知のスケールで深度を予測し,単一の単眼画像からシフトする2段階のフレームワークを提案し,次に3Dポイント・クラウドエンコーダを用いて,現実的な3Dシーン形状を復元する。 さらに,画像レベルの正規化回帰損失と正規化幾何損失を提案し,混合データセット上で訓練された深度予測モデルを強化する。 9つの未知のデータセットで深度モデルを検証し、ゼロショットデータセットの一般化で最先端のパフォーマンスを達成する。 コードは、https://git.io/depth で入手できる。

Despite significant progress in monocular depth estimation in the wild, recent state-of-the-art methods cannot be used to recover accurate 3D scene shape due to an unknown depth shift induced by shift-invariant reconstruction losses used in mixed-data depth prediction training, and possible unknown camera focal length. We investigate this problem in detail, and propose a two-stage framework that first predicts depth up to an unknown scale and shift from a single monocular image, and then use 3D point cloud encoders to predict the missing depth shift and focal length that allow us to recover a realistic 3D scene shape. In addition, we propose an image-level normalized regression loss and a normal-based geometry loss to enhance depth prediction models trained on mixed datasets. We test our depth model on nine unseen datasets and achieve state-of-the-art performance on zero-shot dataset generalization. Code is available at: https://git.io/Depth
翻訳日:2021-05-02 07:29:05 公開日:2020-12-17
# 半グローバル形状認識ネットワーク

Semi-Global Shape-aware Network ( http://arxiv.org/abs/2012.09372v1 )

ライセンス: Link先を確認
Pengju Zhang, Yihong Wu, Jiagang Zhu(参考訳) ローカルでない操作は、最近各位置へのグローバルコンテキストの集約を通じて、長距離依存関係をキャプチャするために使用される。 しかし、ほとんどの手法は、特徴の類似性のみに焦点をあてるだけでオブジェクトの形状を保存できないが、長距離依存を捉えるために中央と他の位置との近接を無視する一方で、形状認識は多くのコンピュータビジョンタスクに有用である。 本稿では,長距離依存をモデル化する際のオブジェクト形状の類似性と近接性を考慮したセミ・グローバル形状認識ネットワーク(SGSNet)を提案する。 階層的な方法でグローバルなコンテキストを集約する。 第1段階では、特徴地図全体における各位置は、類似度と近接度の両方に応じて、縦方向と横方向の文脈情報のみを集約する。 そして、結果は第2のレベルに入力され、同じ操作を行います。 この階層的な方法では、各中央位置ゲインは、他の全ての位置から支持され、類似性と近接の組み合わせにより、各位置ゲインは、ほとんど同じ意味オブジェクトから支持される。 また,特徴マップ内の各行や列を二分木として扱い,類似性計算コストを低減させる,文脈情報集約のための線形時間アルゴリズムを提案する。 セマンティックセグメンテーションと画像検索の実験により、既存のネットワークにSGSNetを追加することにより、精度と効率の両面で確固たる改善が得られた。

Non-local operations are usually used to capture long-range dependencies via aggregating global context to each position recently. However, most of the methods cannot preserve object shapes since they only focus on feature similarity but ignore proximity between central and other positions for capturing long-range dependencies, while shape-awareness is beneficial to many computer vision tasks. In this paper, we propose a Semi-Global Shape-aware Network (SGSNet) considering both feature similarity and proximity for preserving object shapes when modeling long-range dependencies. A hierarchical way is taken to aggregate global context. In the first level, each position in the whole feature map only aggregates contextual information in vertical and horizontal directions according to both similarity and proximity. And then the result is input into the second level to do the same operations. By this hierarchical way, each central position gains supports from all other positions, and the combination of similarity and proximity makes each position gain supports mostly from the same semantic object. Moreover, we also propose a linear time algorithm for the aggregation of contextual information, where each of rows and columns in the feature map is treated as a binary tree to reduce similarity computation cost. Experiments on semantic segmentation and image retrieval show that adding SGSNet to existing networks gains solid improvements on both accuracy and efficiency.
翻訳日:2021-05-02 07:28:47 公開日:2020-12-17
# 非ラベルデータ誘導半教師付き病理組織像分割

Unlabeled Data Guided Semi-supervised Histopathology Image Segmentation ( http://arxiv.org/abs/2012.09373v1 )

ライセンス: Link先を確認
Hongxiao Wang, Hao Zheng, Jianxu Chen, Lin Yang, Yizhe Zhang, Danny Z. Chen(参考訳) 病理組織像の自動分割は疾患解析に不可欠である。 制限付きラベル付きデータは、完全に教師された設定の下で訓練されたモデルの一般化を妨げます。 生成法に基づく半教師付き学習(SSL)は多様な画像特性の活用に有効であることが証明されている。 しかし、モデルトレーニングやそのような画像の使い方において、どのような生成画像がより有用かは明らかにされていない。 本稿では,未ラベルデータ分布を利用した病理組織像分割のための新しいデータガイド生成法を提案する。 まず、画像生成モジュールを設計する。 画像コンテンツとスタイルは分離され、クラスタリングフレンドリーなスペースに埋め込まれて配布される。 新しい画像は、コンテンツやスタイルのサンプリングと相互結合によって合成される。 第2に,生成した画像を定量的にサンプリングするための効果的なデータ選択ポリシーを考案する。(1) 生成されたトレーニングセットをデータセットをよりよくカバーするために,(2) トレーニングプロセスをより効果的にするために,アノテーション付きトレーニングデータセットが不足するデータ中の「ハードケース」の画像を特定し,オーバーサンプリングする。 本手法は腺および核データセット上で評価される。 提案手法は,インダクティブ設定とトランスダクティブ設定の両方において,共通セグメンテーションモデルの性能を一貫して向上させ,最先端の結果を得る。

Automatic histopathology image segmentation is crucial to disease analysis. Limited available labeled data hinders the generalizability of trained models under the fully supervised setting. Semi-supervised learning (SSL) based on generative methods has been proven to be effective in utilizing diverse image characteristics. However, it has not been well explored what kinds of generated images would be more useful for model training and how to use such images. In this paper, we propose a new data guided generative method for histopathology image segmentation by leveraging the unlabeled data distributions. First, we design an image generation module. Image content and style are disentangled and embedded in a clustering-friendly space to utilize their distributions. New images are synthesized by sampling and cross-combining contents and styles. Second, we devise an effective data selection policy for judiciously sampling the generated images: (1) to make the generated training set better cover the dataset, the clusters that are underrepresented in the original training set are covered more; (2) to make the training process more effective, we identify and oversample the images of "hard cases" in the data for which annotated training data may be scarce. Our method is evaluated on glands and nuclei datasets. We show that under both the inductive and transductive settings, our SSL method consistently boosts the performance of common segmentation models and attains state-of-the-art results.
翻訳日:2021-05-02 07:28:25 公開日:2020-12-17
# 教師なし3次元姿勢推定のための不変教師と同変学生

Invariant Teacher and Equivariant Student for Unsupervised 3D Human Pose Estimation ( http://arxiv.org/abs/2012.09398v1 )

ライセンス: Link先を確認
Chenxin Xu, Siheng Chen, Maosen Li, Ya Zhang(参考訳) 3dアノテーションやサイド情報のない3次元ポーズ推定のための教師・学生学習フレームワークに基づく新しい手法を提案する。 教師ネットワークでは,この教師の学習課題を解決するために,ポーズディクショナリーモデルを用いて正規化を行い,物理的に妥当な3dポーズを推定する。 教師ネットワークにおける分解のあいまいさに対処するため,教師ネットワークをトレーニングするための3次元回転不変性を促進するサイクル一貫性アーキテクチャを提案する。 推定精度をさらに向上するため、学生ネットワークは3D座標を直接推定するフレキシビリティのための新しいグラフ畳み込みネットワークを採用している。 3次元回転同値性を促進するもう一つのサイクル一貫性アーキテクチャは、幾何学的一貫性を活用し、教師ネットワークからの知識蒸留と合わせてポーズ推定性能を向上させる。 我々はHuman3.6MとMPI-INF-3DHPについて広範な実験を行った。 本手法は,最先端の非教師付き手法と比較して3次元関節予測誤差を11.4%削減し,Human3.6Mの側情報を用いた弱い教師付き手法よりも優れている。 コードはhttps://github.com/s jtuxcx/ITESで入手できる。

We propose a novel method based on teacher-student learning framework for 3D human pose estimation without any 3D annotation or side information. To solve this unsupervised-learnin g problem, the teacher network adopts pose-dictionary-base d modeling for regularization to estimate a physically plausible 3D pose. To handle the decomposition ambiguity in the teacher network, we propose a cycle-consistent architecture promoting a 3D rotation-invariant property to train the teacher network. To further improve the estimation accuracy, the student network adopts a novel graph convolution network for flexibility to directly estimate the 3D coordinates. Another cycle-consistent architecture promoting 3D rotation-equivariant property is adopted to exploit geometry consistency, together with knowledge distillation from the teacher network to improve the pose estimation performance. We conduct extensive experiments on Human3.6M and MPI-INF-3DHP. Our method reduces the 3D joint prediction error by 11.4% compared to state-of-the-art unsupervised methods and also outperforms many weakly-supervised methods that use side information on Human3.6M. Code will be available at https://github.com/s jtuxcx/ITES.
翻訳日:2021-05-02 07:27:45 公開日:2020-12-17
# LIGHTEN:ビデオにおけるHOIのためのグラフと階層的テンポラルネットワークとのインタラクションの学習

LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal Networks for HOI in videos ( http://arxiv.org/abs/2012.09402v1 )

ライセンス: Link先を確認
Sai Praneeth Reddy Sunkesula, Rishabh Dabral, Ganesh Ramakrishnan(参考訳) ビデオから人間とオブジェクト間の相互作用を分析することで、人間とビデオに存在するオブジェクトの関係を識別する。 これは、物体の1つが人間でなければならない視覚関係検出の特殊なバージョンと考えることができる。 従来の手法では,ビデオセグメントのシーケンスの推論として問題を定式化するが,階層的なアプローチであるLIGHTENを用いて視覚的特徴を学習し,ビデオ内の複数の粒度の時空間的手がかりを効果的に捉える。 現在のアプローチとは異なり、LIGHTENは深度マップや3D人間のポーズのような地上の真実データの使用を避けるため、RGBD以外のデータセットも一般化される。 さらに,手作りの空間的特徴ではなく,視覚的特徴のみを用いて同じことを実現する。 本研究では,v-cocoデータセットにおける画像に基づくhoi検出に基づくcad-120のヒューマン・オブジェクト間インタラクション検出(88.9%,92.6%)と期待タスク,および競合結果を用いて,視覚特徴ベースアプローチの新しいベンチマークを設定する。 LIGHTENのコードはhttps://github.com/p raneeth11009/LIGHTEN -Learning-Interactio ns-with-Graphs-and-H ierarchical-Temporal -Networks-for-HOIで公開されている。

Analyzing the interactions between humans and objects from a video includes identification of the relationships between humans and the objects present in the video. It can be thought of as a specialized version of Visual Relationship Detection, wherein one of the objects must be a human. While traditional methods formulate the problem as inference on a sequence of video segments, we present a hierarchical approach, LIGHTEN, to learn visual features to effectively capture spatio-temporal cues at multiple granularities in a video. Unlike current approaches, LIGHTEN avoids using ground truth data like depth maps or 3D human pose, thus increasing generalization across non-RGBD datasets as well. Furthermore, we achieve the same using only the visual features, instead of the commonly used hand-crafted spatial features. We achieve state-of-the-art results in human-object interaction detection (88.9% and 92.6%) and anticipation tasks of CAD-120 and competitive results on image based HOI detection in V-COCO dataset, setting a new benchmark for visual features based approaches. Code for LIGHTEN is available at https://github.com/p raneeth11009/LIGHTEN -Learning-Interactio ns-with-Graphs-and-H ierarchical-TEmporal -Networks-for-HOI
翻訳日:2021-05-02 07:27:04 公開日:2020-12-17
# 不確かさ認識混合による計算効率の良い知識蒸留

Computation-Efficien t Knowledge Distillation via Uncertainty-Aware Mixup ( http://arxiv.org/abs/2012.09413v1 )

ライセンス: Link先を確認
Guodong Xu, Ziwei Liu, Chen Change Loy(参考訳) 学生ネットワークの学習を指導するために教師ネットワークから「暗黒知識」を抽出する知識蒸留が,モデル圧縮と伝達学習に不可欠な技術として登場した。 学生ネットワークの正確さに焦点をあてた以前の研究とは違って,本研究では,知識蒸留の効率性について研究する。 我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。 我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。 不確実性サンプリング戦略は、各トレーニングサンプルの情報性を評価するために使用される。 適応混合は不確実なサンプルにコンパクトな知識に適用される。 さらに、従来の知識蒸留の冗長性は、簡単なサンプルの過剰な学習にあることを示す。 不確実性と混在性を組み合わせることで,提案手法は冗長性を低減し,教師ネットワークに対する各クエリをより活用する。 CIFAR100とImageNetのアプローチを検証する。 特に,計算コストがわずか79%のCIFAR100では,従来の知識蒸留よりも優れており,ImageNetでは同等の結果が得られる。

Knowledge distillation, which involves extracting the "dark knowledge" from a teacher network to guide the learning of a student network, has emerged as an essential technique for model compression and transfer learning. Unlike previous works that focus on the accuracy of student network, here we study a little-explored but important question, i.e., knowledge distillation efficiency. Our goal is to achieve a performance comparable to conventional knowledge distillation with a lower computation cost during training. We show that the UNcertainty-aware mIXup (UNIX) can serve as a clean yet effective solution. The uncertainty sampling strategy is used to evaluate the informativeness of each training sample. Adaptive mixup is applied to uncertain samples to compact knowledge. We further show that the redundancy of conventional knowledge distillation lies in the excessive learning of easy samples. By combining uncertainty and mixup, our approach reduces the redundancy and makes better use of each query to the teacher network. We validate our approach on CIFAR100 and ImageNet. Notably, with only 79% computation cost, we outperform conventional knowledge distillation on CIFAR100 and achieve a comparable result on ImageNet.
翻訳日:2021-05-02 07:26:37 公開日:2020-12-17
# PanoNet3D:LiDARPoint クラウド検出のための意味的および幾何学的理解の組み合わせ

PanoNet3D: Combining Semantic and Geometric Understanding for LiDARPoint Cloud Detection ( http://arxiv.org/abs/2012.09418v1 )

ライセンス: Link先を確認
Xia Chen, Jianren Wang, David Held, Martial Hebert(参考訳) カメラ画像やLiDAR点雲のような自律走行知覚における視覚データは、意味的特徴と幾何学的構造という2つの側面の混合として解釈できる。 意味論は物体の外観と文脈からセンサーにもたらされ、幾何学的構造は点雲の実際の3d形状である。 LiDAR点雲上のほとんどの検出器は、実際の3次元空間における物体の幾何学的構造を分析することのみに焦点を当てている。 先行研究とは異なり,多視点統合フレームワークを用いて意味的特徴と幾何学的構造の両方を学ぶことを提案する。 提案手法は,2次元範囲画像のlidarスキャンの性質を活用し,よく検討された2次元畳み込みを意味的特徴抽出に適用する。 意味的特徴と幾何学的特徴を融合することにより,この手法はすべてのカテゴリにおいて最先端のアプローチを大きなマージンで上回っている。 意味的特徴と幾何学的特徴を組み合わせる手法は、実世界の3Dポイントクラウド検出の問題を考察するためのユニークな視点を提供する。

Visual data in autonomous driving perception, such as camera image and LiDAR point cloud, can be interpreted as a mixture of two aspects: semantic feature and geometric structure. Semantics come from the appearance and context of objects to the sensor, while geometric structure is the actual 3D shape of point clouds. Most detectors on LiDAR point clouds focus only on analyzing the geometric structure of objects in real 3D space. Unlike previous works, we propose to learn both semantic feature and geometric structure via a unified multi-view framework. Our method exploits the nature of LiDAR scans -- 2D range images, and applies well-studied 2D convolutions to extract semantic features. By fusing semantic and geometric features, our method outperforms state-of-the-art approaches in all categories by a large margin. The methodology of combining semantic and geometric features provides a unique perspective of looking at the problems in real-world 3D point cloud detection.
翻訳日:2021-05-02 07:26:19 公開日:2020-12-17
# 幾何学的変形と照度変化によるCTフィルムの復元:シミュレーションデータセットと深部モデル

CT Film Recovery via Disentangling Geometric Deformation and Illumination Variation: Simulated Datasets and Deep Models ( http://arxiv.org/abs/2012.09491v1 )

ライセンス: Link先を確認
Quan Quan, Qiyuan Wang, Liu Li, Yuanqi Du, S. Kevin Zhou(参考訳) コンピュータ断層撮影(CT)などの医用画像は病院PACSのDICOM形式で保存されているが, セルフストレージや二次コンサルテーションのために, フィルムを転写可能な媒体として印刷することは, 多くの国で日常的に行われている。 また、携帯電話カメラのユビキタス性により、ctフィルムの写真を撮るのが一般的であり、残念ながら幾何学的変形や照明変化に苦しむ。 本研究は,文献における最初の試みであるctフィルムの回収の問題点を,我々の知識を最大限に活用するために検討する。 まず,広く使用されているコンピュータグラフィックスソフトウェアであるBlenderを用いて,約2万枚の画像からなる大規模頭部CTフィルムデータベースCTFilm20Kを構築した。 また,幾何学的変形(3次元座標,深さ,正規分布,紫外線図など)と照明変化(アルベド写像など)に関する全ての情報を記録した。 そこで本研究では,ctフィルムから抽出した多重地図を用いて,幾何変形と照明変動を解消する深い枠組みを提案する。 シミュレーションおよび実画像に対する大規模な実験は、従来のアプローチよりもアプローチの優位性を実証している。 我々はCTフィルム回収の研究を促進するためのシミュレーション画像と深部モデルをオープンソース化する(https://anonymous.4 open.science/r/e6b1f 6e3-9b36-423f-a225-5 5b7d0b55523/)。

While medical images such as computed tomography (CT) are stored in DICOM format in hospital PACS, it is still quite routine in many countries to print a film as a transferable medium for the purposes of self-storage and secondary consultation. Also, with the ubiquitousness of mobile phone cameras, it is quite common to take pictures of the CT films, which unfortunately suffer from geometric deformation and illumination variation. In this work, we study the problem of recovering a CT film, which marks the first attempt in the literature, to the best of our knowledge. We start with building a large-scale head CT film database CTFilm20K, consisting of approximately 20,000 pictures, using the widely used computer graphics software Blender. We also record all accompanying information related to the geometric deformation (such as 3D coordinate, depth, normal, and UV maps) and illumination variation (such as albedo map). Then we propose a deep framework to disentangle geometric deformation and illumination variation using the multiple maps extracted from the CT films to collaboratively guide the recovery process. Extensive experiments on simulated and real images demonstrate the superiority of our approach over the previous approaches. We plan to open source the simulated images and deep models for promoting the research on CT film recovery (https://anonymous.4 open.science/r/e6b1f 6e3-9b36-423f-a225-5 5b7d0b55523/).
翻訳日:2021-05-02 07:26:02 公開日:2020-12-17
# 学習可能な関節群を用いた手のポーズ推定

Exploiting Learnable Joint Groups for Hand Pose Estimation ( http://arxiv.org/abs/2012.09496v1 )

ライセンス: Link先を確認
Moran Li, Yuan Gao, Nong Sang(参考訳) 本稿では, 関節の3次元座標をグループ的に復元し, 低関係の関節が自動的に異なるグループに分類され, 異なる特徴を示す3次元ハンドポーズを推定する。 これは、全てのジョイントが階層的に考慮され、同じ特徴を共有する以前の方法とは異なる。 提案手法の利点はマルチタスク学習(MTL)の原理,すなわち,低関係の関節を異なるグループ(異なるタスク)に分けて各グループごとに異なる特徴を学習することにより,負の移動を効果的に回避する。 提案手法の鍵となるのは, 関連継手を自動的に同一群に選択する新しいバイナリセレクタである。 学習可能なパラメータにgumbel softmaxを用いて構築した,具体的分布から確率的にサンプリングされたバイナリ値を持つセレクタを実装した。 これにより、ネットワーク全体の差別化可能な特性を保存できます。 さらに,これらの非関連グループからの機能を活用し,それらの間の機能融合方式を適用し,より識別的な特徴を学習する。 これは、結合した特徴に対して複数の1x1畳み込みを実装することで実現され、各結合群は特徴融合のための1x1畳み込みを含む。 いくつかのベンチマークデータセットにおける詳細なアブレーション解析と広範な実験は、最先端(sota)法に対する提案手法の有望な性能を示している。 また,提案手法は,最新のfreihandコンペティションにおいて,密集した3d形状ラベルを使用しないすべての手法の中でトップ1を達成した。 ソースコードとモデルはhttps://github.com/m oranli-aca/learnable groups-handで入手できる。

In this paper, we propose to estimate 3D hand pose by recovering the 3D coordinates of joints in a group-wise manner, where less-related joints are automatically categorized into different groups and exhibit different features. This is different from the previous methods where all the joints are considered holistically and share the same feature. The benefits of our method are illustrated by the principle of multi-task learning (MTL), i.e., by separating less-related joints into different groups (as different tasks), our method learns different features for each of them, therefore efficiently avoids the negative transfer (among less related tasks/groups of joints). The key of our method is a novel binary selector that automatically selects related joints into the same group. We implement such a selector with binary values stochastically sampled from a Concrete distribution, which is constructed using Gumbel softmax on trainable parameters. This enables us to preserve the differentiable property of the whole network. We further exploit features from those less-related groups by carrying out an additional feature fusing scheme among them, to learn more discriminative features. This is realized by implementing multiple 1x1 convolutions on the concatenated features, where each joint group contains a unique 1x1 convolution for feature fusion. The detailed ablation analysis and the extensive experiments on several benchmark datasets demonstrate the promising performance of the proposed method over the state-of-the-art (SOTA) methods. Besides, our method achieves top-1 among all the methods that do not exploit the dense 3D shape labels on the most recently released FreiHAND competition at the submission date. The source code and models are available at https://github.com/ moranli-aca/Learnabl eGroups-Hand.
翻訳日:2021-05-02 07:25:32 公開日:2020-12-17
# カモフラージュによる医療敵の攻撃に対する階層的特徴制約

A Hierarchical Feature Constraint to Camouflage Medical Adversarial Attacks ( http://arxiv.org/abs/2012.09501v1 )

ライセンス: Link先を確認
Qingsong Yao, Zecheng He, Yi Lin, Kai Ma, Yefeng Zheng and S. Kevin Zhou(参考訳) 医療画像のためのディープニューラルネットワーク(DNN)は、臨床上の意思決定にセキュリティ上の懸念をもたらす敵例(AE)に対して極めて脆弱である。 幸いなことに、医療用AEは階層的な特徴空間でも容易に検出できます。 この現象をよりよく理解するために、我々は特徴空間における医療用aesの本質的特徴を徹底的に調査し、経験的証拠と理論的説明の両方を提供している。 まず,自然画像とは対照的に,医用画像の深部表現の脆弱性を明らかにするためのストレステストを行った。 次に,2次疾患診断ネットワークに対する典型的な敵対的攻撃が,脆弱な表現を一定方向に連続的に最適化することにより予測を操作できることを理論的に証明した。 しかし、この脆弱性は機能領域にAEを隠すために利用することもできる。 本稿では,既存の敵攻撃に対するアドオンとして,新しい階層的特徴制約 (HFC) を提案する。 提案手法は,Fundoscopy と Chest X-Ray の2つの公開医用画像データセット上で評価する。 実験結果から,攻撃手法よりも先進的対人検知器の配列をバイパスし,医療的特徴の重大な脆弱性により,攻撃者が対人表現を操作できる余地が大きくなることが示唆された。

Deep neural networks (DNNs) for medical images are extremely vulnerable to adversarial examples (AEs), which poses security concerns on clinical decision making. Luckily, medical AEs are also easy to detect in hierarchical feature space per our study herein. To better understand this phenomenon, we thoroughly investigate the intrinsic characteristic of medical AEs in feature space, providing both empirical evidence and theoretical explanations for the question: why are medical adversarial attacks easy to detect? We first perform a stress test to reveal the vulnerability of deep representations of medical images, in contrast to natural images. We then theoretically prove that typical adversarial attacks to binary disease diagnosis network manipulate the prediction by continuously optimizing the vulnerable representations in a fixed direction, resulting in outlier features that make medical AEs easy to detect. However, this vulnerability can also be exploited to hide the AEs in the feature space. We propose a novel hierarchical feature constraint (HFC) as an add-on to existing adversarial attacks, which encourages the hiding of the adversarial representation within the normal feature distribution. We evaluate the proposed method on two public medical image datasets, namely {Fundoscopy} and {Chest X-Ray}. Experimental results demonstrate the superiority of our adversarial attack method as it bypasses an array of state-of-the-art adversarial detectors more easily than competing attack methods, supporting that the great vulnerability of medical features allows an attacker more room to manipulate the adversarial representations.
翻訳日:2021-05-02 07:25:04 公開日:2020-12-17
# 意味セグメンテーションのための具体化ビジュアルアクティブラーニング

Embodied Visual Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2012.09503v1 )

ライセンス: Link先を確認
David Nilsson, Aleksis Pirinen, Erik G\"artner, Cristian Sminchisescu(参考訳) エージェントが3次元環境を探索し、アノテーションを要求するビューを積極的に選択することで視覚的シーン理解を得ることを目的として、視覚的能動学習の課題について検討する。 一部のベンチマークでは正確だが、今日のディープビジュアル認識パイプラインは、特定の現実世界のシナリオや異常な視点ではうまく一般化しない傾向がある。 ロボットの知覚は、屋内環境の混乱や照明不足など、モバイルシステムの動作状況の認識能力を洗練する能力を必要としている。 これにより,エージェントを視覚認識能力の向上を目的とした新しい環境に配置するタスクが提案される。 視覚活動学習の具体化を研究するため,環境に関する知識の異なるエージェント(学習と事前特定の両方)の電池を開発する。 エージェントはセマンティックセグメンテーションネットワークを備えており、それらのビューの周辺でアノテーションを広めるために情報的ビューを取得し、移動し、探索し、オンラインリトレーニングによって基礎となるセグメンテーションネットワークを洗練させる。 トレーニング可能な方法は、深層強化学習を使用して、2つの競合する目標、すなわち、視覚認識精度として表現されるタスクのパフォーマンスと、アクティブな探索中に要求される必要量のアノテートされたデータとをバランスさせる。 本稿では,フォトリアリスティックなMatterport3Dシミュレータを用いて提案手法を広範囲に評価し,より少ないアノテーションを要求しても,完全に学習した手法が比較対象よりも優れていることを示す。

We study the task of embodied visual active learning, where an agent is set to explore a 3d environment with the goal to acquire visual scene understanding by actively selecting views for which to request annotation. While accurate on some benchmarks, today's deep visual recognition pipelines tend to not generalize well in certain real-world scenarios, or for unusual viewpoints. Robotic perception, in turn, requires the capability to refine the recognition capabilities for the conditions where the mobile system operates, including cluttered indoor environments or poor illumination. This motivates the proposed task, where an agent is placed in a novel environment with the objective of improving its visual recognition capability. To study embodied visual active learning, we develop a battery of agents - both learnt and pre-specified - and with different levels of knowledge of the environment. The agents are equipped with a semantic segmentation network and seek to acquire informative views, move and explore in order to propagate annotations in the neighbourhood of those views, then refine the underlying segmentation network by online retraining. The trainable method uses deep reinforcement learning with a reward function that balances two competing objectives: task performance, represented as visual recognition accuracy, which requires exploring the environment, and the necessary amount of annotated data requested during active exploration. We extensively evaluate the proposed models using the photorealistic Matterport3D simulator and show that a fully learnt method outperforms comparable pre-specified counterparts, even when requesting fewer annotations.
翻訳日:2021-05-02 07:24:35 公開日:2020-12-17
# オープンセット映像認識における低遅延ストリームデータからのインクリメンタル学習

Incremental Learning from Low-labelled Stream Data in Open-Set Video Face Recognition ( http://arxiv.org/abs/2012.09571v1 )

ライセンス: Link先を確認
Eric Lopez-Lopez, Carlos V. Regueiro, Xose M. Pardo(参考訳) ディープラーニングアプローチは、豊富な注釈付きデータがトレーニングのために提供される一般的な分類問題に対して、優れたパフォーマンスを備えたソリューションをもたらした。 対照的に、ストリーミングデータの教師なし問題に主に適用した場合に、非定常クラスを連続的に学習する際の進歩は少ない。 本稿では,深層機能エンコーダとSVMのオープンセット動的アンサンブルを組み合わせた新たなインクリメンタル学習手法を提案する。 いくつかのビデオフレームで訓練された単純な弱い分類器から、教師なし操作データを用いて認識を向上させることができる。 我々のアプローチは、破滅的な忘れを回避し、ミス適応から部分的に修復する新しいパターンに適応する。 さらに、現実世界の条件に適合するように、システムはオープンセットで運用するように設計された。 その結果、非適応的な最先端手法に対するF1スコアの最大15%向上効果が示された。

Deep Learning approaches have brought solutions, with impressive performance, to general classification problems where wealthy of annotated data are provided for training. In contrast, less progress has been made in continual learning of a set of non-stationary classes, mainly when applied to unsupervised problems with streaming data. Here, we propose a novel incremental learning approach which combines a deep features encoder with an Open-Set Dynamic Ensembles of SVM, to tackle the problem of identifying individuals of interest (IoI) from streaming face data. From a simple weak classifier trained on a few video-frames, our method can use unsupervised operational data to enhance recognition. Our approach adapts to new patterns avoiding catastrophic forgetting and partially heals itself from miss-adaptation. Besides, to better comply with real world conditions, the system was designed to operate in an open-set setting. Results show a benefit of up to 15% F1-score increase respect to non-adaptive state-of-the-art methods.
翻訳日:2021-05-02 07:24:07 公開日:2020-12-17
# 畳み込みニューラルネットワークによる銃器検出:エンドツーエンドソリューションに対する意味セグメンテーションモデルの比較

Firearm Detection via Convolutional Neural Networks: Comparing a Semantic Segmentation Model Against End-to-End Solutions ( http://arxiv.org/abs/2012.09662v1 )

ライセンス: Link先を確認
Alexander Egiazarov, Fabio Massimo Zennaro, Vasileios Mavroeidis(参考訳) 武器の脅威検出とライブビデオからの攻撃的な行動は、テロリズムや一般犯罪、家庭内暴力などの致命的な事件の迅速検出と予防に利用できる。 これを実現する1つの方法は、人工知能の使用と、特に機械学習による画像解析である。 本稿では,従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと,セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく先行モデルの比較を行う。 精度,計算量,データ複雑性,柔軟性,信頼性など,異なる観点から両モデルを評価した。 その結果,セマンティクスセグメンテーションモデルは,従来の深層モデルと比べ,低データ環境においてかなりの柔軟性とレジリエンスを提供するが,その構成とチューニングはエンドツーエンドモデルと同等の精度を達成する上では困難であることがわかった。

Threat detection of weapons and aggressive behavior from live video can be used for rapid detection and prevention of potentially deadly incidents such as terrorism, general criminal offences, or even domestic violence. One way for achieving this is through the use of artificial intelligence and, in particular, machine learning for image analysis. In this paper we conduct a comparison between a traditional monolithic end-to-end deep learning model and a previously proposed model based on an ensemble of simpler neural networks detecting fire-weapons via semantic segmentation. We evaluated both models from different points of view, including accuracy, computational and data complexity, flexibility and reliability. Our results show that a semantic segmentation model provides considerable amount of flexibility and resilience in the low data environment compared to classical deep model models, although its configuration and tuning presents a challenge in achieving the same levels of accuracy as an end-to-end model.
翻訳日:2021-05-02 07:23:53 公開日:2020-12-17
# 複数ショットによるヒトメッシュの回復

Human Mesh Recovery from Multiple Shots ( http://arxiv.org/abs/2012.09843v1 )

ライセンス: Link先を確認
Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa(参考訳) 映画のような編集されたメディアのビデオは、有用だが未調査の情報ソースである。 これらの映画において、大きな時間的文脈で描かれた人間同士の多様な外観と相互作用は、貴重なデータ源となり得る。 しかし、データの豊かさは、急激なショット変更や、重度のトランケーションを持つアクターのクローズアップといった基本的な課題を犠牲にされ、既存の人間の3D理解方法の適用性が制限される。 本稿では,同一シーンのショット変更がフレーム間の不連続を生じさせるが,シーンの3d構造は依然としてスムーズに変化するという考察を加えて,これらの制約について述べる。 これにより、撮影前後のフレームをマルチビュー信号として処理し、アクターの3D状態を復元する強力な手がかりを提供する。 提案するマルチショット最適化フレームワークは,擬似基底真理3次元メッシュを用いた長周期の3次元再構成とマイニングを改善する。 得られたデータは,人間のメッシュ回復モデルのトレーニングにおいて有用であることが示される: 単一画像の場合, 頑健性が向上する; ビデオの場合, 入力フレームのショット変化による観察の欠如を自然に処理できる純粋トランスフォーマーベースのテンポラルエンコーダを提案する。 広範な実験を通じて,洞察と提案モデルの重要性を実証する。 私たちが開発しているツールは、編集されたメディアの巨大なライブラリから3Dコンテンツを処理・分析するための扉を開きます。 プロジェクトページ: https://geopavlakos. github.io/multishot

Videos from edited media like movies are a useful, yet under-explored source of information. The rich variety of appearance and interactions between humans depicted over a large temporal context in these films could be a valuable source of data. However, the richness of data comes at the expense of fundamental challenges such as abrupt shot changes and close up shots of actors with heavy truncation, which limits the applicability of existing human 3D understanding methods. In this paper, we address these limitations with an insight that while shot changes of the same scene incur a discontinuity between frames, the 3D structure of the scene still changes smoothly. This allows us to handle frames before and after the shot change as multi-view signal that provide strong cues to recover the 3D state of the actors. We propose a multi-shot optimization framework, which leads to improved 3D reconstruction and mining of long sequences with pseudo ground truth 3D human mesh. We show that the resulting data is beneficial in the training of various human mesh recovery models: for single image, we achieve improved robustness; for video we propose a pure transformer-based temporal encoder, which can naturally handle missing observations due to shot changes in the input frames. We demonstrate the importance of the insight and proposed models through extensive experiments. The tools we develop open the door to processing and analyzing in 3D content from a large library of edited media, which could be helpful for many downstream applications. Project page: https://geopavlakos. github.io/multishot
翻訳日:2021-05-02 07:22:33 公開日:2020-12-17
# スマートフォンで撮影した3dヘッドポートレート

Relightable 3D Head Portraits from a Smartphone Video ( http://arxiv.org/abs/2012.09963v1 )

ライセンス: Link先を確認
Artem Sevastopolsky, Savva Ignatiev, Gonzalo Ferrer, Evgeny Burnaev, Victor Lempitsky(参考訳) 本研究は、人間の頭部の光沢ある3D肖像画を作成するシステムについて述べる。 私たちのニューラルパイプラインは、スマートフォンのカメラがフラッシュ点滅(フラッシュなしのフラッシュシーケンス)で撮影したフレームのシーケンスで動作します。 structure-from-motio n software と multi-view denoising によって再構成された粗い点雲は、幾何学的なプロキシとして使われる。 その後、深いレンダリングネットワークを訓練して、任意の新しい視点のために密なアルベド、ノーマル、環境照明マップを復元する。 効果的に、プロキシジオメトリとレンダリングネットワークは、任意の視点から任意の照明下で合成可能な、再生可能な3dポートレートモデルを構成する。 方向光、点光、あるいは環境マップ。 このモデルは、アルベド光分解の可視性を強制する人間の顔特有の先行するフレーム列に適合し、対話的なフレームレートで動作させる。 異なる照明条件および外挿視点下での性能評価を行い,既存の照明法との比較を行った。

In this work, a system for creating a relightable 3D portrait of a human head is presented. Our neural pipeline operates on a sequence of frames captured by a smartphone camera with the flash blinking (flash-no flash sequence). A coarse point cloud reconstructed via structure-from-motio n software and multi-view denoising is then used as a geometric proxy. Afterwards, a deep rendering network is trained to regress dense albedo, normals, and environmental lighting maps for arbitrary new viewpoints. Effectively, the proxy geometry and the rendering network constitute a relightable 3D portrait model, that can be synthesized from an arbitrary viewpoint and under arbitrary lighting, e.g. directional light, point light, or an environment map. The model is fitted to the sequence of frames with human face-specific priors that enforce the plausibility of albedo-lighting decomposition and operates at the interactive frame rate. We evaluate the performance of the method under varying lighting conditions and at the extrapolated viewpoints and compare with existing relighting methods.
翻訳日:2021-05-02 07:21:50 公開日:2020-12-17
# BERTが販売開始 - 製品表現の分散モデルの比較

BERT Goes Shopping: Comparing Distributional Models for Product Representations ( http://arxiv.org/abs/2012.09807v1 )

ライセンス: Link先を確認
Federico Bianchi and Bingqing Yu and Jacopo Tagliabue(参考訳) ワード埋め込み(例: word2vec)はprod2vecを通じてeコマース製品にうまく適用されている。 コンテキスト化された埋め込みによってもたらされるいくつかのnlpタスクの最近のパフォーマンス改善に触発されて、我々はbertのようなアーキテクチャをeコマースに転送することを提案します。 ProdBERTは従来の手法よりもいくつかのシナリオで優れているが、最高の性能のモデルではリソースとハイパーパラメータの重要性を強調している。 最後に、様々な計算およびデータ制約の下で埋め込みを訓練するためのガイドラインを提供することで結論付ける。

Word embeddings (e.g., word2vec) have been applied successfully to eCommerce products through prod2vec. Inspired by the recent performance improvements on several NLP tasks brought by contextualized embeddings, we propose to transfer BERT-like architectures to eCommerce: our model -- ProdBERT -- is trained to generate representations of products through masked session modeling. Through extensive experiments over multiple shops, different tasks, and a range of design choices, we systematically compare the accuracy of ProdBERT and prod2vec embeddings: while ProdBERT is found to be superior to traditional methods in several scenarios, we highlight the importance of resources and hyperparameters in the best performing models. Finally, we conclude by providing guidelines for training embeddings under a variety of computational and data constraints.
翻訳日:2021-05-02 07:21:26 公開日:2020-12-17
# DecAug: Decomposed Feature Representation と Semantic Augmentation によるアウト・オブ・ディストリビューションの一般化

DecAug: Out-of-Distribution Generalization via Decomposed Feature Representation and Semantic Augmentation ( http://arxiv.org/abs/2012.09382v1 )

ライセンス: Link先を確認
Haoyue Bai, Rui Sun, Lanqing Hong, Fengwei Zhou, Nanyang Ye, Han-Jia Ye, S.-H. Gary Chan, Zhenguo Li(参考訳) ディープラーニングは、独立で同一に分散した(IID)データを扱う強力な能力を示しているが、テストデータが別の分布(w.r.t)から来るようなOoD(out-of-distriion )の一般化に悩まされることが多い。 訓練1号) 一般のOoD一般化フレームワークを広範囲のアプリケーションに設計することは、主に現実世界における相関シフトと多様性シフトによって困難である。 以前のアプローチのほとんどは、ドメイン間のシフトや相関の補間など、ひとつの特定の分散シフトのみを解決できる。 そこで本研究では,OoD一般化のための特徴表現と意味拡張手法であるDecAugを提案する。 DecAugはカテゴリ関連の機能とコンテキスト関連の機能を分離する。 カテゴリ関連機能は対象オブジェクトの因果情報を含み、コンテキスト関連機能は属性、スタイル、背景、シーンを記述し、トレーニングデータとテストデータの間の分散シフトを引き起こす。 この分解は2つの勾配(w.r.t)の直交化によって達成される。 中間特徴) カテゴリーとコンテキストラベルの予測のための損失。 さらに,学習表現のロバスト性を改善するために,文脈関連特徴の勾配に基づく拡張を行う。 実験結果から、DecAugは様々なOoDデータセット上で、様々なタイプのOoD一般化課題に対処できる手法の中で、他の最先端手法よりも優れていることが示された。

While deep learning demonstrates its strong ability to handle independent and identically distributed (IID) data, it often suffers from out-of-distribution (OoD) generalization, where the test data come from another distribution (w.r.t. the training one). Designing a general OoD generalization framework to a wide range of applications is challenging, mainly due to possible correlation shift and diversity shift in the real world. Most of the previous approaches can only solve one specific distribution shift, such as shift across domains or the extrapolation of correlation. To address that, we propose DecAug, a novel decomposed feature representation and semantic augmentation approach for OoD generalization. DecAug disentangles the category-related and context-related features. Category-related features contain causal information of the target object, while context-related features describe the attributes, styles, backgrounds, or scenes, causing distribution shifts between training and test data. The decomposition is achieved by orthogonalizing the two gradients (w.r.t. intermediate features) of losses for predicting category and context labels. Furthermore, we perform gradient-based augmentation on context-related features to improve the robustness of the learned representations. Experimental results show that DecAug outperforms other state-of-the-art methods on various OoD datasets, which is among the very few methods that can deal with different types of OoD generalization challenges.
翻訳日:2021-05-02 07:21:15 公開日:2020-12-17
# ベイズネットワークモデルを用いた心臓疾患予測のための高速アルゴリズム

A Fast Algorithm for Heart Disease Prediction using Bayesian Network Model ( http://arxiv.org/abs/2012.09429v1 )

ライセンス: Link先を確認
Mistura Muibideen and Rajesh Prasad (Department of Computer Science African University of Science and Technology, Abuja, Nigeria)(参考訳) 心臓血管疾患は世界中の死因の1つである。 データマイニングは、医療部門から利用可能なデータから貴重な知識を取得するのに役立つ。 これは、臨床実験よりも速い患者の健康状態を予測するためのモデルをトレーニングするのに役立ちます。 Logistic Regression, K-Nearest Neighbor, Naive Bayes (NB), Support Vector Machineなど,さまざまな機械学習アルゴリズムの実装。 クリーブランド心臓データセットに適用されているが、ベイジアンネットワーク(BN)を用いたモデリングには限界がある。 本研究は,UCIレポジトリから収集したクリーブランド心臓データ14の関連属性の関係を明らかにするためにBNモデリングを適用した。 その目的は、属性間の依存性が分類器のパフォーマンスにどう影響するかをチェックすることである。 BNは属性間の信頼性と透過的なグラフィカル表現を生成し、新しいシナリオを予測できる。 このモデルは85%の精度を持つ。 モデルでは80%の精度でNB分類器よりも優れていた。

Cardiovascular disease is the number one cause of death all over the world. Data mining can help to retrieve valuable knowledge from available data from the health sector. It helps to train a model to predict patients' health which will be faster as compared to clinical experimentation. Various implementation of machine learning algorithms such as Logistic Regression, K-Nearest Neighbor, Naive Bayes (NB), Support Vector Machine, etc. have been applied on Cleveland heart datasets but there has been a limit to modeling using Bayesian Network (BN). This research applied BN modeling to discover the relationship between 14 relevant attributes of the Cleveland heart data collected from The UCI repository. The aim is to check how the dependency between attributes affects the performance of the classifier. The BN produces a reliable and transparent graphical representation between the attributes with the ability to predict new scenarios. The model has an accuracy of 85%. It was concluded that the model outperformed the NB classifier which has an accuracy of 80%.
翻訳日:2021-05-02 07:20:38 公開日:2020-12-17
# 一般化保証によるAUUC最大化による治療目標設定

Treatment Targeting by AUUC Maximization with Generalization Guarantees ( http://arxiv.org/abs/2012.09897v1 )

ライセンス: Link先を確認
Artem Betlei, Eustache Diemert, Massih-Reza Amini(参考訳) 個々の治療効果予測に基づいて治療課題を最適化する作業を検討する。 このタスクはパーソナライズされた医療やターゲット広告といった多くのアプリケーションで見られ、近年はアップリフト・モデリング(uplift modeling)という名で関心を集めている。 それは、最も有益であろう個人に対する治療を標的にしている。 実生活のシナリオでは、地道的個別治療効果にアクセスできない場合には、一般に、個別治療効果(ITE)モデルの大半の学習目標とは異なるAUUC(Area Under the Uplift Curve)によって、それを行うモデルの能力が測定される。 これらのモデルの学習は、不注意にauucを分解し、サブオプティカルな治療の割り当てにつながると論じている。 この問題に対処するために,AUUCに縛られる一般化を提案し,AUUC-maxと呼ばれるこの境界の導出可能なサロゲートを最適化する新しい学習アルゴリズムを提案する。 最後に,この一般化境界の厳密性,ハイパーパラメータチューニングの有効性を実証的に示し,従来の2つのベンチマークの幅広い基準値と比較し,提案アルゴリズムの有効性を示す。

We consider the task of optimizing treatment assignment based on individual treatment effect prediction. This task is found in many applications such as personalized medicine or targeted advertising and has gained a surge of interest in recent years under the name of Uplift Modeling. It consists in targeting treatment to the individuals for whom it would be the most beneficial. In real life scenarios, when we do not have access to ground-truth individual treatment effect, the capacity of models to do so is generally measured by the Area Under the Uplift Curve (AUUC), a metric that differs from the learning objectives of most of the Individual Treatment Effect (ITE) models. We argue that the learning of these models could inadvertently degrade AUUC and lead to suboptimal treatment assignment. To tackle this issue, we propose a generalization bound on the AUUC and present a novel learning algorithm that optimizes a derivable surrogate of this bound, called AUUC-max. Finally, we empirically demonstrate the tightness of this generalization bound, its effectiveness for hyper-parameter tuning and show the efficiency of the proposed algorithm compared to a wide range of competitive baselines on two classical benchmarks.
翻訳日:2021-05-02 07:19:39 公開日:2020-12-17
# 新型コロナウイルスの音声:感染の音響的相関

The voice of COVID-19: Acoustic correlates of infection ( http://arxiv.org/abs/2012.09478v1 )

ライセンス: Link先を確認
Katrin D. Bartl-Pokorny, Florian B. Pokorny, Anton Batliner, Shahin Amiriparian, Anastasia Semertzidou, Florian Eyben, Elena Kramer, Florian Schmidt, Rainer Sch\"onweiler, Markus Wehler, Bj\"orn W. Schuller(参考訳) 新型コロナウイルス(covid-19)は世界の健康危機であり、ここ1年間、私たちの日常生活の多くの側面に影響を与えてきた。 新型コロナウイルスの症状は重度連続体と異質である。 症状のかなりの割合は声帯の病理学的変化と関連しており、COVID-19が発声に影響を及ぼす可能性があると仮定される。 本研究は,本研究で初めて,包括的音響パラメータセットに基づいて,新型コロナウイルス感染の音声音響相関について検討することを目的とした。 i:/, /e:/, /o:/, /u:/, /a:/, /a:/の母音から抽出された88の音響的特徴を,11の症状性covid-19陽性者および11人の陰性ドイツ語話者参加者で比較した。 我々はMann-Whitney Uテストを採用し、最も顕著なグループ差のある特徴を特定するために効果サイズを算出する。 平均発声セグメント長と1秒あたりの発声セグメント数の差は、新型コロナウイルス陽性者の発声中の肺気流の不連続を示す母音全体において最も重要な違いとなる。 前母音 /i:/ と /e:/ の群差は、基本周波数の変動と調和音-雑音比、後母音 /o:/ と /u:/ の群差、メル周波数ケプストラム係数とスペクトル傾斜の統計にさらに反映される。 この研究の発見は、COVID-19に感染した個人を音声で識別する可能性を示す重要な概念実証として考えられる。

COVID-19 is a global health crisis that has been affecting many aspects of our daily lives throughout the past year. The symptomatology of COVID-19 is heterogeneous with a severity continuum. A considerable proportion of symptoms are related to pathological changes in the vocal system, leading to the assumption that COVID-19 may also affect voice production. For the very first time, the present study aims to investigate voice acoustic correlates of an infection with COVID-19 on the basis of a comprehensive acoustic parameter set. We compare 88 acoustic features extracted from recordings of the vowels /i:/, /e:/, /o:/, /u:/, and /a:/ produced by 11 symptomatic COVID-19 positive and 11 COVID-19 negative German-speaking participants. We employ the Mann-Whitney U test and calculate effect sizes to identify features with the most prominent group differences. The mean voiced segment length and the number of voiced segments per second yield the most important differences across all vowels indicating discontinuities in the pulmonic airstream during phonation in COVID-19 positive participants. Group differences in the front vowels /i:/ and /e:/ are additionally reflected in the variation of the fundamental frequency and the harmonics-to-noise ratio, group differences in back vowels /o:/ and /u:/ in statistics of the Mel-frequency cepstral coefficients and the spectral slope. Findings of this study can be considered an important proof-of-concept contribution for a potential future voice-based identification of individuals infected with COVID-19.
翻訳日:2021-05-02 07:19:19 公開日:2020-12-17
# Clique: 都市規模における時空間物体の再同定

Clique: Spatiotemporal Object Re-identification at the City Scale ( http://arxiv.org/abs/2012.09329v1 )

ライセンス: Link先を確認
Tiantu Xu, Kaiwen Shen, Yang Fu, Humphrey Shi, Felix Xiaozhu Lin(参考訳) オブジェクト再識別(ReID)は都市規模のカメラのキーとなる応用である。 古典的なreidタスクは画像検索と見なされることが多いが、対象オブジェクトが現れる場所と時間についての時空間クエリとして扱う。 時空間レイドは、コンピュータビジョンアルゴリズムと都市カメラからのコロッサルビデオの精度の限界に挑戦されている。 Clique は,(1) ReID アルゴリズムによって抽出されたファジィオブジェクトの特徴をクラスタリングすることで,ターゲット発生を判定する実用的 ReID エンジンであり,各クラスタは,入力にマッチする別物体の一般的な印象を表す。(2) ビデオで検索するために,Clique は時空間のカバレッジを最大化し,必要に応じてカメラを段階的に追加する。 25台のカメラから25時間のビデオを評価することで、Cliqueは70のクエリで0.87(リコールは5)に達し、高い精度で830倍の動画をリアルタイムに実行した。

Object re-identification (ReID) is a key application of city-scale cameras. While classic ReID tasks are often considered as image retrieval, we treat them as spatiotemporal queries for locations and times in which the target object appeared. Spatiotemporal reID is challenged by the accuracy limitation in computer vision algorithms and the colossal videos from city cameras. We present Clique, a practical ReID engine that builds upon two new techniques: (1) Clique assesses target occurrences by clustering fuzzy object features extracted by ReID algorithms, with each cluster representing the general impression of a distinct object to be matched against the input; (2) to search in videos, Clique samples cameras to maximize the spatiotemporal coverage and incrementally adds cameras for processing on demand. Through evaluation on 25 hours of videos from 25 cameras, Clique reached a high accuracy of 0.87 (recall at 5) across 70 queries and runs at 830x of video realtime in achieving high accuracy.
翻訳日:2021-05-02 07:18:08 公開日:2020-12-17
# ピクセルごとのバイアスドコントラスト閾値のイベントカメラ校正

Event Camera Calibration of Per-pixel Biased Contrast Threshold ( http://arxiv.org/abs/2012.09378v1 )

ライセンス: Link先を確認
Ziwei Wang, Yonhon Ng, Pieter van Goor, Robert Mahony(参考訳) イベントカメラは、極端な照明条件下でも高い時間分解能で強度変化を表す非同期イベントを出力する。 現在、既存の作品のほとんどは、すべてのピクセルの強度変化を推定するために単一のコントラスト閾値を使用している。 しかし、複雑な回路バイアスと製造不完全さは、画素間のバイアス付き画素とミスマッチするコントラスト閾値を引き起こし、望ましくない出力に繋がる可能性がある。 本稿では,イベント専用カメラとハイブリッドカメラを対象とする新しいイベントカメラモデルと2つのキャリブレーション手法を提案する。 また,インテンシティ画像とイベントを同時に提供した場合,時間変動イベントレートに適応するイベントカメラのキャリブレーションを行う効率的なオンライン手法を提案する。 提案手法の利点を,複数のイベントカメラデータセットにおける最新技術と比較した。

Event cameras output asynchronous events to represent intensity changes with a high temporal resolution, even under extreme lighting conditions. Currently, most of the existing works use a single contrast threshold to estimate the intensity change of all pixels. However, complex circuit bias and manufacturing imperfections cause biased pixels and mismatch contrast threshold among pixels, which may lead to undesirable outputs. In this paper, we propose a new event camera model and two calibration approaches which cover event-only cameras and hybrid image-event cameras. When intensity images are simultaneously provided along with events, we also propose an efficient online method to calibrate event cameras that adapts to time-varying event rates. We demonstrate the advantages of our proposed methods compared to the state-of-the-art on several different event camera datasets.
翻訳日:2021-05-02 07:17:50 公開日:2020-12-17
# スケール不変な特徴変換キーポイント記述子マッチングのための完全パイプラインFPGAアクセラレータ

A fully pipelined FPGA accelerator for scale invariant feature transform keypoint descriptor matching, ( http://arxiv.org/abs/2012.09666v1 )

ライセンス: Link先を確認
Luka Daoud, Muhammad Kamran Latif, H S. Jacinto, Nader Rafla(参考訳) スケール不変特徴変換(SIFT)アルゴリズムはコンピュータビジョンの分野における古典的特徴抽出アルゴリズムであると考えられている。 siftのキーポイント記述子マッチングは、消費されるデータ量による計算集約的なプロセスである。 本研究では,SIFTキーポイント記述子マッチングのための完全パイプライン型ハードウェアアクセラレータアーキテクチャを設計した。 加速器コアはfield programmable gate array (fpga) で実装・テストされた。 提案するハードウェアアーキテクチャは,完全な実装に必要なメモリ帯域幅を適切に処理し,屋上性能モデルに到達し,潜在的な最大スループットを実現する。 完全なパイプラインマッチングアーキテクチャは、共振角距離法に基づいて設計されている。 アーキテクチャは16ビットの固定点演算に最適化され,Xilinx ZynqベースのFPGA開発ボードを用いてハードウェア上に実装された。 提案アーキテクチャは,メモリ帯域幅制限を緩和し,高いスループットを維持しつつ,文学的手法と比較して,領域資源の顕著な削減を示す。 その結果、使用済みデバイスリソースの最大91%がLUTで、99%がBRAMで削減された。 私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。

The scale invariant feature transform (SIFT) algorithm is considered a classical feature extraction algorithm within the field of computer vision. SIFT keypoint descriptor matching is a computationally intensive process due to the amount of data consumed. In this work, we designed a novel fully pipelined hardware accelerator architecture for SIFT keypoint descriptor matching. The accelerator core was implemented and tested on a field programmable gate array (FPGA). The proposed hardware architecture is able to properly handle the memory bandwidth necessary for a fully-pipelined implementation and hits the roofline performance model, achieving the potential maximum throughput. The fully pipelined matching architecture was designed based on the consine angle distance method. Our architecture was optimized for 16-bit fixed-point operations and implemented on hardware using a Xilinx Zynq-based FPGA development board. Our proposed architecture shows a noticeable reduction of area resources compared with its counterparts in literature, while maintaining high throughput by alleviating memory bandwidth restrictions. The results show a reduction in consumed device resources of up to 91 percent in LUTs and 79 percent of BRAMs. Our hardware implementation is 15.7 times faster than the comparable software approach.
翻訳日:2021-05-02 07:16:46 公開日:2020-12-17
# OCTAを用いた胎児血管域の高速3次元計測

Fast 3-dimensional estimation of the Foveal Avascular Zone from OCTA ( http://arxiv.org/abs/2012.09945v1 )

ライセンス: Link先を確認
Giovanni Ometto, Giovanni Montesano, Usha Chakravarthy, Frank Kee, Ruth E. Hogg and David P. Crabb(参考訳) 光コヒーレンス断層撮影法(optical coherence tomography angiography:octa)のen face imageからのfoveal avascular zone(faz)領域は、この技術に基づいた最も一般的な測定方法の1つである。 FAZの体積測定はOCTAスキャンを特徴付ける高雑音で計算されるのに対し, 診療におけるFAZ領域の使用は, 正常者間でのFAZ領域の高変動によって制限される。 本研究では,3次元領域における内網膜の毛細血管網を3次元で効率的に同定するために,en面画像の信号対ノイズ比を高く活用するアルゴリズムを考案した。 その後、ネットワークは形態学的操作で処理され、内部網膜の境界領域内の3d fazを識別する。 430個の眼のデータセットを用いてFAZの体積と面積を算出した。 次に,線形混合効果モデルを用いて,糖尿病網膜症を伴わない健常者,糖尿病性網膜症者(dr),糖尿病者(dr)の3群間の差を同定した。 その結果, FAZ量は異なる群間で有意差を認めたが, 面積測定では認められなかった。 これらの結果から,体積型FAZは平面型FAZよりも優れた診断検出器である可能性が示唆された。 私たちが導入した効率的な手法は、内網膜の毛細血管ネットワークの3dセグメンテーションを提供するだけでなく、診療所におけるfazボリュームの高速計算を可能にします。

The area of the foveal avascular zone (FAZ) from en face images of optical coherence tomography angiography (OCTA) is one of the most common measurement based on this technology. However, its use in clinic is limited by the high variation of the FAZ area across normal subjects, while the calculation of the volumetric measurement of the FAZ is limited by the high noise that characterizes OCTA scans. We designed an algorithm that exploits the higher signal-to-noise ratio of en face images to efficiently identify the capillary network of the inner retina in 3-dimensions (3D), under the assumption that the capillaries in separate plexuses do not overlap. The network is then processed with morphological operations to identify the 3D FAZ within the bounding segmentations of the inner retina. The FAZ volume and area in different plexuses were calculated for a dataset of 430 eyes. Then, the measurements were analyzed using linear mixed effect models to identify differences between three groups of eyes: healthy, diabetic without diabetic retinopathy (DR) and diabetic with DR. Results showed significant differences in the FAZ volume between the different groups but not in the area measurements. These results suggest that volumetric FAZ could be a better diagnostic detector than the planar FAZ. The efficient methodology that we introduced could allow the fast calculation of the FAZ volume in clinics, as well as providing the 3D segmentation of the capillary network of the inner retina.
翻訳日:2021-05-02 07:16:30 公開日:2020-12-17
# 動的頭部の合成放射場を学習する

Learning Compositional Radiance Fields of Dynamic Human Heads ( http://arxiv.org/abs/2012.09955v1 )

ライセンス: Link先を確認
Ziyan Wang, Timur Bagautdinov, Stephen Lombardi, Tomas Simon, Jason Saragih, Jessica Hodgins, Michael Zollh\"ofer(参考訳) 動的人間のフォトリアリスティックなレンダリングは、テレプレゼンスシステム、仮想ショッピング、合成データ生成などにとって重要な能力である。 近年,コンピュータグラフィックスと機械学習の技法を組み合わせたニューラルレンダリング手法が,人間と物体の高忠実度モデルを作成している。 これらの手法のいくつかは、駆動可能な人間モデル(ニューラルボリューム)に十分な忠実度を持たず、一方、非常に長いレンダリング時間(NeRF)を持つ。 本稿では,従来の手法の長所を組み合わせ,高解像度かつ高速な結果を生成する新しい合成3次元表現を提案する。 アニメーションコードの粗い3次元構造を意識したグリッドと、各位置とその対応する局所アニメーションコードをビュー依存放射率と局所体積密度にマッピングする連続学習シーン関数を組み合わせることで、離散的かつ連続的なボリューム表現のギャップを埋める。 異なるボリュームレンダリングは、人間の頭部と上半身のフォトリアリスティックな斬新なビューを計算したり、2次元の監督だけで新しい表現をエンドツーエンドに訓練したりするために用いられる。 さらに,学習した動的放射場を用いて,グローバルなアニメーションコードに基づく新しい未知の表現を合成できることを示す。 本研究は,人間の頭と上半身の新たな視線を合成する手法である。

Photorealistic rendering of dynamic humans is an important ability for telepresence systems, virtual shopping, synthetic data generation, and more. Recently, neural rendering methods, which combine techniques from computer graphics and machine learning, have created high-fidelity models of humans and objects. Some of these methods do not produce results with high-enough fidelity for driveable human models (Neural Volumes) whereas others have extremely long rendering times (NeRF). We propose a novel compositional 3D representation that combines the best of previous methods to produce both higher-resolution and faster results. Our representation bridges the gap between discrete and continuous volumetric representations by combining a coarse 3D-structure-aware grid of animation codes with a continuous learned scene function that maps every position and its corresponding local animation code to its view-dependent emitted radiance and local volume density. Differentiable volume rendering is employed to compute photo-realistic novel views of the human head and upper body as well as to train our novel representation end-to-end using only 2D supervision. In addition, we show that the learned dynamic radiance field can be used to synthesize novel unseen expressions based on a global animation code. Our approach achieves state-of-the-art results for synthesizing novel views of dynamic human heads and the upper body.
翻訳日:2021-05-02 07:16:04 公開日:2020-12-17
# 視覚質問応答のための自己教師付き学習による言語優先の克服

Overcoming Language Priors with Self-supervised Learning for Visual Question Answering ( http://arxiv.org/abs/2012.11528v1 )

ライセンス: Link先を確認
Xi Zhu, Zhendong Mao, Chunxiao Liu, Peng Zhang, Bin Wang, and Yongdong Zhang(参考訳) ほとんどのVisual Question Answering (VQA)モデルは、固有のデータバイアスによって引き起こされる言語前の問題に悩まされている。 具体的には、VQAモデルは質問に答える傾向がある(例えば、バナナは何色か? 画像内容を無視した高周波応答(例えばイエロー)に基づいて。 既存のアプローチでは、繊細なモデルを作成したり、画像依存性を強化しながら質問依存を減らす視覚アノテーションを追加することでこの問題に対処している。 しかし、データバイアスが緩和されてはいないため、まだ言語に先行する問題に直面している。 本稿では,この問題を解決するための自己教師付き学習フレームワークを提案する。 具体的には,まずラベル付きデータを自動生成してバイアスデータのバランスをとるとともに,バランスの取れたデータを活用する自己教師付き補助タスクを提案する。 本手法は,外部アノテーションを導入することなく,バランスデータを生成することにより,データのバイアスを補償する。 実験結果から,最も一般的に使用されているベンチマークVQA-CP v2の精度は49.50%から57.59%に向上した。 言い換えれば、外部アノテーションを使わずにアノテーションベースのメソッドのパフォーマンスを16%向上させることができる。

Most Visual Question Answering (VQA) models suffer from the language prior problem, which is caused by inherent data biases. Specifically, VQA models tend to answer questions (e.g., what color is the banana?) based on the high-frequency answers (e.g., yellow) ignoring image contents. Existing approaches tackle this problem by creating delicate models or introducing additional visual annotations to reduce question dependency while strengthening image dependency. However, they are still subject to the language prior problem since the data biases have not been even alleviated. In this paper, we introduce a self-supervised learning framework to solve this problem. Concretely, we first automatically generate labeled data to balance the biased data, and propose a self-supervised auxiliary task to utilize the balanced data to assist the base VQA model to overcome language priors. Our method can compensate for the data biases by generating balanced data without introducing external annotations. Experimental results show that our method can significantly outperform the state-of-the-art, improving the overall accuracy from 49.50% to 57.59% on the most commonly used benchmark VQA-CP v2. In other words, we can increase the performance of annotation-based methods by 16% without using external annotations.
翻訳日:2021-05-02 07:15:41 公開日:2020-12-17
# 小売の非行の因果学習

The Causal Learning of Retail Delinquency ( http://arxiv.org/abs/2012.09448v1 )

ライセンス: Link先を確認
Yiyan Huang, Cheuk Hang Leung, Xing Yan, Qi Wu, Nanbo Peng, Dongdong Wang, Zhixiang Huang(参考訳) 本稿では、貸主の信用決定に変化があった場合の借主の返済の期待差に焦点を当てる。 古典的推定器は相反する効果を見落とし、したがって推定誤差は壮大である。 そこで我々は,誤差を大幅に低減できる推定器を構築するための別の手法を提案する。 提案する推定器は, 理論解析と数値実験を組み合わせることで, 偏りがなく, 一貫性があり, 頑健であることが示されている。 さらに,古典的推定器と提案した推定器の因果量の推定能力を比較する。 比較は、線形回帰モデル、ツリーベースモデル、ニューラルネットワークベースのモデルなど、さまざまなレベルの因果性、異なる非線形性、異なる分布特性を示す異なるシミュレーションデータセットの下で、幅広いモデルでテストされる。 最も重要なことは、当社のアプローチを、eコマースと融資ビジネスの両方を運用するグローバルテクノロジー企業が提供する大規模な観察データセットに適用することです。 因果効果が正しく説明されれば, 推定誤差の相対的低減は極めて有意であることがわかった。

This paper focuses on the expected difference in borrower's repayment when there is a change in the lender's credit decisions. Classical estimators overlook the confounding effects and hence the estimation error can be magnificent. As such, we propose another approach to construct the estimators such that the error can be greatly reduced. The proposed estimators are shown to be unbiased, consistent, and robust through a combination of theoretical analysis and numerical testing. Moreover, we compare the power of estimating the causal quantities between the classical estimators and the proposed estimators. The comparison is tested across a wide range of models, including linear regression models, tree-based models, and neural network-based models, under different simulated datasets that exhibit different levels of causality, different degrees of nonlinearity, and different distributional properties. Most importantly, we apply our approaches to a large observational dataset provided by a global technology firm that operates in both the e-commerce and the lending business. We find that the relative reduction of estimation error is strikingly substantial if the causal effects are accounted for correctly.
翻訳日:2021-05-02 07:14:57 公開日:2020-12-17
# アルゴリズム・暗号共設計によるスケーラブル・プライバシ保全型深層ニューラルネットワーク

Towards Scalable and Privacy-Preserving Deep Neural Network via Algorithmic-Cryptogr aphic Co-design ( http://arxiv.org/abs/2012.09364v1 )

ライセンス: Link先を確認
Chaochao Chen, Jun Zhou, Longfei Zheng, Yan Wang, Xiaolin Zheng, Bingzhe Wu, Cen Chen, Li Wang, and Jianwei Yin(参考訳) ディープニューラルネットワーク(DNN)は、特に豊富なトレーニングデータを提供する場合、様々な現実世界のアプリケーションにおいて顕著な進歩を遂げている。 しかし、データ分離は現在深刻な問題となっている。 既存の作業は、アルゴリズムの観点からも暗号化の観点からも、DNNモデルをプライバシ保護する。 前者は主にデータホルダとデータホルダとサーバでDNN計算グラフを分割するが、スケーラビリティは良好だが、精度の低下と潜在的なプライバシーリスクに悩まされている。 対照的に後者は、プライバシーの保証は強いがスケーラビリティは乏しい、時間を要する暗号技術を利用している。 本稿では,アルゴリズムと暗号を併用した,スケーラブルでプライバシ保護の深いニューラルネットワーク学習フレームワークSPNNを提案する。 アルゴリズムの観点から,dnnモデルの計算グラフを,データホルダが行うプライベートデータ関連計算と,計算能力の高いサーバに委譲されるその他の重い計算の2つの部分に分割する。 暗号の観点からは,秘密共有法と準同型暗号法という2種類の暗号手法を用いて,私的および協調的にプライベートデータ関連計算を行う手法を提案する。 さらに,SPNNを分散環境で実装し,ユーザフレンドリなAPIを導入する。 実世界のデータセットで行った実験結果はspnnの優位を示している。

Deep Neural Networks (DNNs) have achieved remarkable progress in various real-world applications, especially when abundant training data are provided. However, data isolation has become a serious problem currently. Existing works build privacy preserving DNN models from either algorithmic perspective or cryptographic perspective. The former mainly splits the DNN computation graph between data holders or between data holders and server, which demonstrates good scalability but suffers from accuracy loss and potential privacy risks. In contrast, the latter leverages time-consuming cryptographic techniques, which has strong privacy guarantee but poor scalability. In this paper, we propose SPNN - a Scalable and Privacy-preserving deep Neural Network learning framework, from algorithmic-cryptogr aphic co-perspective. From algorithmic perspective, we split the computation graph of DNN models into two parts, i.e., the private data related computations that are performed by data holders and the rest heavy computations that are delegated to a server with high computation ability. From cryptographic perspective, we propose using two types of cryptographic techniques, i.e., secret sharing and homomorphic encryption, for the isolated data holders to conduct private data related computations privately and cooperatively. Furthermore, we implement SPNN in a decentralized setting and introduce user-friendly APIs. Experimental results conducted on real-world datasets demonstrate the superiority of SPNN.
翻訳日:2021-05-02 07:14:40 公開日:2020-12-17
# 薬物標的結合親和性予測のための距離対応分子グラフ注意ネットワーク

Distance-aware Molecule Graph Attention Network for Drug-Target Binding Affinity Prediction ( http://arxiv.org/abs/2012.09624v1 )

ライセンス: Link先を確認
Jingbo Zhou, Shuangli Li, Liang Huang, Haoyi Xiong, Fan Wang, Tong Xu, Hui Xiong, Dejing Dou(参考訳) 薬物とタンパク質の結合親和性を正確に予測することは、計算薬物発見の重要なステップである。 グラフニューラルネットワーク(gnns)は様々なグラフ関連タスクで顕著な成功を収めているため、gnnは近年、結合親和性予測を改善する有望なツールと見なされている。 しかし、既存のGNNアーキテクチャのほとんどは、その原子間の相対的な空間情報を考えることなく、薬物やタンパク質のトポロジカルグラフ構造を符号化することができる。 ソーシャルネットワークやコモンセンス知識グラフのような他のグラフデータセットとは異なり、原子間の相対的な空間的位置と化学結合は結合親和性に大きな影響を及ぼす。 そこで本研究では,ドラッグターゲット結合親和性予測に適したディスタンス対応分子グラフ注意ネットワーク(S-MAN)を提案する。 そこで,我々はまず,構築したポケットリガンドグラフに位相構造と空間位置情報を統合する位置符号化機構を提案する。 また,エッジレベルのアグリゲーションとノードレベルのアグリゲーションを有する新しいエッジノード階層型アグリゲーション構造を提案する。 階層的注意集約は、原子間の空間的依存関係を捉えるだけでなく、原子間の複数の空間的関係を識別する能力で位置強調情報を融合することができる。 最後に、S-MANの有効性を示すために、2つの標準データセットについて広範な実験を行った。

Accurately predicting the binding affinity between drugs and proteins is an essential step for computational drug discovery. Since graph neural networks (GNNs) have demonstrated remarkable success in various graph-related tasks, GNNs have been considered as a promising tool to improve the binding affinity prediction in recent years. However, most of the existing GNN architectures can only encode the topological graph structure of drugs and proteins without considering the relative spatial information among their atoms. Whereas, different from other graph datasets such as social networks and commonsense knowledge graphs, the relative spatial position and chemical bonds among atoms have significant impacts on the binding affinity. To this end, in this paper, we propose a diStance-aware Molecule graph Attention Network (S-MAN) tailored to drug-target binding affinity prediction. As a dedicated solution, we first propose a position encoding mechanism to integrate the topological structure and spatial position information into the constructed pocket-ligand graph. Moreover, we propose a novel edge-node hierarchical attentive aggregation structure which has edge-level aggregation and node-level aggregation. The hierarchical attentive aggregation can capture spatial dependencies among atoms, as well as fuse the position-enhanced information with the capability of discriminating multiple spatial relations among atoms. Finally, we conduct extensive experiments on two standard datasets to demonstrate the effectiveness of S-MAN.
翻訳日:2021-05-02 07:14:07 公開日:2020-12-17
# Fairkit, Fairkit, on the Wall, Who's the Fairest of Them All? フェアモデルトレーニングにおけるデータサイエンティストの支援

Fairkit, Fairkit, on the Wall, Who's the Fairest of Them All? Supporting Data Scientists in Training Fair Models ( http://arxiv.org/abs/2012.09951v1 )

ライセンス: Link先を確認
Brittany Johnson, Jesse Bartola, Rico Angell, Katherine Keith, Sam Witty, Stephen J. Giguere, Yuriy Brun(参考訳) 現代のソフトウェアはデータと機械学習に大きく依存しており、世界を形成する決定に影響を与える。 残念なことに、最近の研究では、データに偏りがあるため、ソフトウェアシステムは、女性の声よりも男性の声のより良い字幕の書き起こしを生成することから、金融ローンのために有色人種の人々を過大に引き込むことまで、彼らの決定にバイアスをしばしば注入していることが示されている。 機械学習のバイアスに対処するために、データサイエンティストは、特定のデータ領域におけるモデル品質と公平性の間のトレードオフを理解するためのツールが必要である。 その目的に向けて,データサイエンティストが公平性を判断し理解するためのツールキットであるfairkit-learnを提案する。 Fairkit-learnは最先端の機械学習ツールで動作し、同じインターフェースを使って採用を容易にする。 複数の機械学習アルゴリズム、ハイパーパラメータ、データ置換によって生成される何千ものモデルを評価し、フェアネスと品質の間の最適なトレードオフを記述する小さなパレート最適モデルの集合を計算し視覚化することができる。 その結果,fairkit-learnを利用する学生は,scikit-learn と ibm ai fairness 360 ツールキットを用いた学生よりも,公平性と品質のバランスが良いモデルを作成していることがわかった。 fairkit-learnでは、scikit-learnでトレーニングされるであろうモデルよりも、最大67%公平で10%精度の高いモデルを選択することができる。

Modern software relies heavily on data and machine learning, and affects decisions that shape our world. Unfortunately, recent studies have shown that because of biases in data, software systems frequently inject bias into their decisions, from producing better closed caption transcriptions of men's voices than of women's voices to overcharging people of color for financial loans. To address bias in machine learning, data scientists need tools that help them understand the trade-offs between model quality and fairness in their specific data domains. Toward that end, we present fairkit-learn, a toolkit for helping data scientists reason about and understand fairness. Fairkit-learn works with state-of-the-art machine learning tools and uses the same interfaces to ease adoption. It can evaluate thousands of models produced by multiple machine learning algorithms, hyperparameters, and data permutations, and compute and visualize a small Pareto-optimal set of models that describe the optimal trade-offs between fairness and quality. We evaluate fairkit-learn via a user study with 54 students, showing that students using fairkit-learn produce models that provide a better balance between fairness and quality than students using scikit-learn and IBM AI Fairness 360 toolkits. With fairkit-learn, users can select models that are up to 67% more fair and 10% more accurate than the models they are likely to train with scikit-learn.
翻訳日:2021-05-02 07:13:21 公開日:2020-12-17
# ビデオゲームにおける超解像の深層学習技術

Deep Learning Techniques for Super-Resolution in Video Games ( http://arxiv.org/abs/2012.09810v1 )

ライセンス: Link先を確認
Alexander Watson(参考訳) ビデオゲームグラフィックスの計算コストは増加し、グラフィックス処理のハードウェアは追いつくのに苦労している。 つまり、コンピュータ科学者はグラフィカル処理ハードウェアの性能を改善する創造的な新しい方法を開発する必要がある。 ビデオ超解像のための深層学習技術は、計算コストの大部分を相殺しながら、高品質なグラフィックスを持つことができる。 これらの新興技術は、消費者がビデオゲームのパフォーマンスと楽しみを改善し、ゲーム開発業界で標準になる可能性を秘めている。

The computational cost of video game graphics is increasing and hardware for processing graphics is struggling to keep up. This means that computer scientists need to develop creative new ways to improve the performance of graphical processing hardware. Deep learning techniques for video super-resolution can enable video games to have high quality graphics whilst offsetting much of the computational cost. These emerging technologies allow consumers to have improved performance and enjoyment from video games and have the potential to become standard within the game development industry.
翻訳日:2021-05-02 07:12:31 公開日:2020-12-17
# Treadmill Assisted Gait Spoofing (TAGS):ウェアラブルセンサーによる歩行認証への新たな脅威

Treadmill Assisted Gait Spoofing (TAGS): An Emerging Threat to wearable Sensor-based Gait Authentication ( http://arxiv.org/abs/2012.09950v1 )

ライセンス: Link先を確認
Rajesh Kumar and Can Isik and Vir V Phoha(参考訳) 本研究では,Treadmill Assisted Gait Spoofing (TAGS) がWearable Sensor-based Gait Authentication (WSGait) に与える影響を検討する。 我々は,加速度センサと固定された機能のセットのみに焦点を当てた,以前の研究よりも現実的な実装と展開のシナリオを検討する。 具体的には、WSGaitの実装が1つ以上のセンサーを現代のスマートフォンに組み込むことができる状況について考察する。 さらに、異なる機能セットや異なる分類アルゴリズム、あるいはその両方を使うこともできる。 さまざまなセンサー、機能セット(相互情報によってランク付けされる)、および6つの異なる分類アルゴリズムが使用されているにもかかわらず、TAGSは平均FAR(False Accept Rate)を4%から26%に向上することができた。 このような平均的なFARの大幅な増加、特に本研究で考慮された厳格な実装とデプロイメントのシナリオの下では、WSGaitの公開デプロイ前の評価設計に関するさらなる調査が求められている。

In this work, we examine the impact of Treadmill Assisted Gait Spoofing (TAGS) on Wearable Sensor-based Gait Authentication (WSGait). We consider more realistic implementation and deployment scenarios than the previous study, which focused only on the accelerometer sensor and a fixed set of features. Specifically, we consider the situations in which the implementation of WSGait could be using one or more sensors embedded into modern smartphones. Besides, it could be using different sets of features or different classification algorithms, or both. Despite the use of a variety of sensors, feature sets (ranked by mutual information), and six different classification algorithms, TAGS was able to increase the average False Accept Rate (FAR) from 4% to 26%. Such a considerable increase in the average FAR, especially under the stringent implementation and deployment scenarios considered in this study, calls for a further investigation into the design of evaluations of WSGait before its deployment for public use.
翻訳日:2021-05-02 07:12:24 公開日:2020-12-17
# ゼロショットモデル選択による音声強調

Speech Enhancement with Zero-Shot Model Selection ( http://arxiv.org/abs/2012.09359v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao(参考訳) 音声強調(SE)に関する最近の研究は、深層学習に基づく手法の出現を目にしている。 多様なテスト条件下でSEの一般化性を高める効果的な方法を決定することは依然として難しい課題である。 本稿では,ゼロショット学習とアンサンブル学習を組み合わせることで,se性能の一般化を促進するためのゼロショットモデル選択(zmos)手法を提案する。 提案手法はオフラインとオンラインの2つのフェーズで実現されている。 オフラインフェーズでは、トレーニングデータのセット全体を複数のサブセットにクラスタし、各サブセットで専用のseモデル(コンポーネントseモデルと呼ばれる)をトレーニングする。 オンラインフェーズは、拡張を行うのに最も適したコンポーネントSEモデルを選択する。 品質スコア(QS)に基づく選択と品質埋め込み(QE)に基づく選択の2つの選択戦略が開発されている。 qsとqeはいずれも、非侵入的品質評価ネットワークであるquality-netによって得られる。 オフラインフェーズでは、トレーニングデータをクラスタにグループ化するために、トレーニング発話のqsまたはqeを使用する。 オンラインフェーズでは、テスト発話のQSまたはQEを使用して、適切なコンポーネントSEモデルを特定し、テスト発話の強化を行う。 実験結果から,提案手法の有効性を示唆するベースラインシステムと比較して,zmos法が観測されたノイズタイプと未検出ノイズタイプの両方において,より優れた性能が得られることを確認した。

Recent research on speech enhancement (SE) has seen the emergence of deep learning-based methods. It is still a challenging task to determine effective ways to increase the generalizability of SE under diverse test conditions. In this paper, we combine zero-shot learning and ensemble learning to propose a zero-shot model selection (ZMOS) approach to increase the generalization of SE performance. The proposed approach is realized in two phases, namely offline and online phases. The offline phase clusters the entire set of training data into multiple subsets, and trains a specialized SE model (termed component SE model) with each subset. The online phase selects the most suitable component SE model to carry out enhancement. Two selection strategies are developed: selection based on quality score (QS) and selection based on quality embedding (QE). Both QS and QE are obtained by a Quality-Net, a non-intrusive quality assessment network. In the offline phase, the QS or QE of a train-ing utterance is used to group the training data into clusters. In the online phase, the QS or QE of the test utterance is used to identify the appropriate component SE model to perform enhancement on the test utterance. Experimental results have confirmed that the proposed ZMOS approach can achieve better performance in both seen and unseen noise types compared to the baseline systems, which indicates the effectiveness of the proposed approach to provide robust SE performance.
翻訳日:2021-05-02 07:12:06 公開日:2020-12-17
# グラスマン層を有する浅部ReLUネットワークを用いた低次モデリング

Reduced Order Modeling using Shallow ReLU Networks with Grassmann Layers ( http://arxiv.org/abs/2012.09940v1 )

ライセンス: Link先を確認
Kayla Bollinger and Hayden Schaeffer(参考訳) 本稿では,ニューラルネットワークを用いた方程式系の非線形モデル削減手法を提案する。 ニューラルネットワークは、グラスマン多様体上の第1層と同一性に設定された第1活性化関数を持つ「3層」ネットワークであり、残りのネットワークは標準の2層ReLUニューラルネットワークである。 グラスマン層は入力空間の低減基底を決定するが、残りの層は非線形入力出力系を近似する。 トレーニングは減弱基底と非線形近似の学習を交互に行い、減弱基底の修正やネットワークのみのトレーニングよりも効果的であることが示されている。 このアプローチのさらなる利点は、低次元の部分空間上にあるデータに対して、ネットワーク内のパラメータの数が大きくなる必要はないことである。 本稿では,ニューラルネットワークの近似に適さないデータスカース方式の科学的問題に対して,本手法が適用可能であることを示す。 例えば、非線形力学系の低次モデリングや、いくつかの航空宇宙工学の問題がある。

This paper presents a nonlinear model reduction method for systems of equations using a structured neural network. The neural network takes the form of a "three-layer" network with the first layer constrained to lie on the Grassmann manifold and the first activation function set to identity, while the remaining network is a standard two-layer ReLU neural network. The Grassmann layer determines the reduced basis for the input space, while the remaining layers approximate the nonlinear input-output system. The training alternates between learning the reduced basis and the nonlinear approximation, and is shown to be more effective than fixing the reduced basis and training the network only. An additional benefit of this approach is, for data that lie on low-dimensional subspaces, that the number of parameters in the network does not need to be large. We show that our method can be applied to scientific problems in the data-scarce regime, which is typically not well-suited for neural network approximations. Examples include reduced order modeling for nonlinear dynamical systems and several aerospace engineering problems.
翻訳日:2021-05-02 07:11:45 公開日:2020-12-17