このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210911となっている論文です。

PDF登録状況(公開日: 20210911)

TitleAuthorsAbstract論文公表日・翻訳日
# unbounded best-first gameアルゴリズムの完全性

Completeness of Unbounded Best-First Game Algorithms ( http://arxiv.org/abs/2109.09468v1 )

ライセンス: Link先を確認
Quentin Cohen-Solal (LAMSADE, Universit\'e Paris-Dauphine, PSL, CNRS, France)(参考訳) 本稿では、以下のゲーム探索アルゴリズムの完全性を証明する。 完了と降下を伴う無制限のベストファーストミニマックス、つまり、十分な時間をかけて、最高のゲーム戦略を見つけることを示します。 次に,これら2つのアルゴリズムを完全情報マルチプレイヤーゲームという文脈で一般化する。 これらの一般化も完備であることを示し、平衡点の1つを見つける。

In this article, we prove the completeness of the following game search algorithms: unbounded best-first minimax with completion and descent with completion, i.e. we show that, with enough time, they find the best game strategy. We then generalize these two algorithms in the context of perfect information multiplayer games. We show that these generalizations are also complete: they find one of the equilibrium points.
翻訳日:2021-09-26 22:31:31 公開日:2021-09-11
# (参考訳) FGOT:フィルタと最適輸送に基づくグラフ距離 [全文訳有]

FGOT: Graph Distances based on Filters and Optimal Transport ( http://arxiv.org/abs/2109.04442v2 )

ライセンス: CC BY 4.0
Hermina Petric Maretic, Mireille El Gheche, Giovanni Chierchia, Pascal Frossard(参考訳) グラフ比較は、グラフ間の類似点と相違点の識別を扱う。 主な障害は、未知のグラフのアライメントと、正確で安価な比較指標の欠如である。 本稿では,フィルタグラフ距離について述べる。 フィルタされたグラフ信号の確率分布を通してグラフ比較を駆動する最適輸送ベース距離である。 これは非常にフレキシブルな距離を生み出し、観測されたグラフで異なるスペクトル情報を優先し、比較計量に対して幅広い選択肢を提供する。 グラフ比較問題を暗黙的に解く新しいフィルタ距離を最小化するグラフ置換を計算することで,グラフアライメントの問題に取り組む。 次に,グラフ比較に固有の多くの計算困難を回避し,性能を犠牲にすることなく鏡面勾配降下などの高速アルゴリズムを活用できる新しい近似コスト関数を提案する。 最終的に、アライメント問題の非凸性に対応し、性能精度と速度の良好なトレードオフを提供するミラー勾配降下の確率バージョンから導出した新しいアルゴリズムを提案する。 グラフアライメントと分類実験により,フィルタグラフ距離で得られる柔軟性は性能に大きな影響を与えるが,近似コストによる速度の差は実用的な設定で適用できることを示した。

Graph comparison deals with identifying similarities and dissimilarities between graphs. A major obstacle is the unknown alignment of graphs, as well as the lack of accurate and inexpensive comparison metrics. In this work we introduce the filter graph distance. It is an optimal transport based distance which drives graph comparison through the probability distribution of filtered graph signals. This creates a highly flexible distance, capable of prioritising different spectral information in observed graphs, offering a wide range of choices for a comparison metric. We tackle the problem of graph alignment by computing graph permutations that minimise our new filter distances, which implicitly solves the graph comparison problem. We then propose a new approximate cost function that circumvents many computational difficulties inherent to graph comparison and permits the exploitation of fast algorithms such as mirror gradient descent, without grossly sacrificing the performance. We finally propose a novel algorithm derived from a stochastic version of mirror gradient descent, which accommodates the non-convexity of the alignment problem, offering a good trade-off between performance accuracy and speed. The experiments on graph alignment and classification show that the flexibility gained through filter graph distances can have a significant impact on performance, while the difference in speed offered by the approximation cost makes the framework applicable in practical settings.
翻訳日:2021-09-19 02:06:20 公開日:2021-09-11
# (参考訳) Extract, Integrate, Compete: 検証スタイル読み込みの理解に向けて [全文訳有]

Extract, Integrate, Compete: Towards Verification Style Reading Comprehension ( http://arxiv.org/abs/2109.05149v1 )

ライセンス: CC BY 4.0
Chen Zhang, Yuxuan Lai, Yansong Feng and Dongyan Zhao(参考訳) 本稿では,ガオカオの中国語テストから,vgaokaoと呼ばれる新しい検証スタイル読解データセットを提案する。 既存の取り組みとは異なり、新しいデータセットは元々ネイティブスピーカーの評価のために設計されており、より高度な言語理解スキルを必要とする。 本稿では,vgaokaoの課題に対処するために,新しいクエリ更新機構を用いて相補的な証拠を反復的に選択し,支持的証拠を適応的に蒸留し,類似するテキストの微妙な差異をモデルにプッシュする,新たな抽出・統合・補完手法を提案する。 実験の結果,VGaokaoの手法は,効率性や説明性に優れており,相補的証拠が得られ,様々なベースラインを達成できた。 私たちのデータセットとコードは、さらなる研究のためにリリースされます。

In this paper, we present a new verification style reading comprehension dataset named VGaokao from Chinese Language tests of Gaokao. Different from existing efforts, the new dataset is originally designed for native speakers' evaluation, thus requiring more advanced language understanding skills. To address the challenges in VGaokao, we propose a novel Extract-Integrate-Co mpete approach, which iteratively selects complementary evidence with a novel query updating mechanism and adaptively distills supportive evidence, followed by a pairwise competition to push models to learn the subtle difference among similar text pieces. Experiments show that our methods outperform various baselines on VGaokao with retrieved complementary evidence, while having the merits of efficiency and explainability. Our dataset and code are released for further research.
翻訳日:2021-09-18 18:46:34 公開日:2021-09-11
# (参考訳) 1次元生成ニューラルネットワークを用いた光子検出確率予測 [全文訳有]

Photon detection probability prediction using one-dimensional generative neural network ( http://arxiv.org/abs/2109.07277v1 )

ライセンス: CC BY 4.0
Wei Mu, Alexander I. Himmel, and Bryan Ramson(参考訳) 光子検出は、直接暗黒物質探索やニュートリノ特性測定のための液体アルゴン検出器にとって重要である。 光子輸送の精密シミュレーションは、液体アルゴン検出器における光子検出の確率を理解するために広く用いられている。 Geant4simulation Toolkitを使って全ての光子を追跡する従来の光子輸送シミュレーションは、キロトンスケールの液体アルゴン検出器とGeVレベルのエネルギー沈殿物にとって大きな計算課題である。 本研究では,OuterProduct-layerを用いて効率よく特徴を生成できる一次元生成モデルを提案する。 このモデルは光子輸送シミュレーションをバイパスし、特定の光子検出器によって検出される光子の数をthegeant4simulationと同じ詳細レベルで予測する。 キロトンスケールの液体アルゴン検出器で光子検出システムをシミュレートする応用により、この新しい生成モデルにより、高精度で20倍から50倍高速で再現できることを示した。 この生成モデルは、ProtoDUNEやDUNEのような巨大な液体アルゴン検出器の光子検出確率を迅速に予測するために用いられる。

Photon detection is important for liquid argon detectors for direct dark matter searches or neutrino property measurements. Precise simulation of photon transport is widely used to understand the probability of photon detection in liquid argon detectors. Traditional photon transport simulation, which tracks every photon using theGeant4simulation toolkit, is a major computational challenge for kilo-tonne-scale liquid argon detectors and GeV-level energy depositions. In this work, we propose a one-dimensional generative model which efficiently generates features using an OuterProduct-layer. This model bypasses photon transport simulation and predicts the number of photons detected by particular photon detectors at the same level of detail as theGeant4simulation. The application to simulating photon detection systems in kilo-tonne-scale liquid argon detectors demonstrates this novel generative model is able to reproduceGeant4simul ation with good accuracy and 20 to 50 times faster. This generative model can be used to quickly predict photon detection probability in huge liquid argon detectors like ProtoDUNE or DUNE.
翻訳日:2021-09-18 18:16:31 公開日:2021-09-11
# (参考訳) データ組み合わせによる局所的平均治療効果の推定 [全文訳有]

Estimation of Local Average Treatment Effect by Data Combination ( http://arxiv.org/abs/2109.05175v1 )

ライセンス: CC BY 4.0
Kazuhiko Shinoda and Takahiro Hoshino(参考訳) 治療課題の遵守が不完全である場合には、局所的平均治療効果(LATE)を推定することが重要である。 従来提案されたLATE推定法では,すべての関連する変数を1つのデータセットで共同で観測することが求められていたが,技術的な理由やプライバシー上の理由から,現実の多くの問題においてそのようなデータを収集することは困難あるいは不可能であった。 共変量の関数である遅延が、別個の観測データセットの組み合わせから非パラメトリックに識別されるような、新しい問題設定を考える。 提案手法は, 従来, 完全コンプライアンス下での平均治療効果を推定するために開発された直接最小二乗法が適用可能であることを示す。 しかし、最小二乗推定器のモデル選択とハイパーパラメータチューニングは、ミニマックス問題の解として定義されるため、実際には不安定である。 次に,最小値の定式化を回避し,より単純なモデル選択を可能にする重み付き最小二乗推定器を提案する。 逆確率重み付き (IPW) 推定器と異なり, 提案した推定器は, インバージョンなしで直接推定した重みを算出し, IPW法による問題を回避する。 合成および実世界のデータセットを用いた実験により,本手法の有効性を示す。

It is important to estimate the local average treatment effect (LATE) when compliance with a treatment assignment is incomplete. The previously proposed methods for LATE estimation required all relevant variables to be jointly observed in a single dataset; however, it is sometimes difficult or even impossible to collect such data in many real-world problems for technical or privacy reasons. We consider a novel problem setting in which LATE, as a function of covariates, is nonparametrically identified from the combination of separately observed datasets. For estimation, we show that the direct least squares method, which was originally developed for estimating the average treatment effect under complete compliance, is applicable to our setting. However, model selection and hyperparameter tuning for the direct least squares estimator can be unstable in practice since it is defined as a solution to the minimax problem. We then propose a weighted least squares estimator that enables simpler model selection by avoiding the minimax objective formulation. Unlike the inverse probability weighted (IPW) estimator, the proposed estimator directly uses the pre-estimated weight without inversion, avoiding the problems caused by the IPW methods. We demonstrate the effectiveness of our method through experiments using synthetic and real-world datasets.
翻訳日:2021-09-18 18:03:27 公開日:2021-09-11
# (参考訳) 教育専門家のような質問 : 実世界検査データに基づく質問応答ペアの自動生成 [全文訳有]

Asking Questions Like Educational Experts: Automatically Generating Question-Answer Pairs on Real-World Examination Data ( http://arxiv.org/abs/2109.05179v1 )

ライセンス: CC BY 4.0
Fanyi Qu, Xin Jia, Yunfang Wu(参考訳) 高品質な質問応答ペアを生成することは難しいが有意義な作業だ。 従来の研究は回答対応質問生成において大きな成果を上げてきたが、教育分野における実践的な応用は困難である。 本稿では,実世界の検査データに対する質問応答ペア生成タスクを初めて取り上げ,RASに関する新たな統合フレームワークを提案する。 入力経路の重要な情報をキャプチャするために、まずキーフレーズを自動的に生成(抽出する代わりに)するので、このタスクはキーフレーズ・クエスト・アンワート・トリプルト生成に還元される。 そこで本研究では,質問文とキーフレーズを反復的に生成・最適化し,生成した質問文とキーフレーズを用いて回答の導出を行うマルチエージェント通信モデルを提案する。 厳密なベンチマークを確立するために、我々は強力な生成事前学習モデルに基づいてモデルを構築した。 実験の結果,本モデルは質問応答対生成タスクにおいて大きなブレークスルーをもたらすことがわかった。 さらに,本モデルの包括的分析を行い,この課題に対する新たな方向性を提案する。

Generating high quality question-answer pairs is a hard but meaningful task. Although previous works have achieved great results on answer-aware question generation, it is difficult to apply them into practical application in the education field. This paper for the first time addresses the question-answer pair generation task on the real-world examination data, and proposes a new unified framework on RACE. To capture the important information of the input passage we first automatically generate(rather than extracting) keyphrases, thus this task is reduced to keyphrase-question-a nswer triplet joint generation. Accordingly, we propose a multi-agent communication model to generate and optimize the question and keyphrases iteratively, and then apply the generated question and keyphrases to guide the generation of answers. To establish a solid benchmark, we build our model on the strong generative pre-training model. Experimental results show that our model makes great breakthroughs in the question-answer pair generation task. Moreover, we make a comprehensive analysis on our model, suggesting new directions for this challenging task.
翻訳日:2021-09-18 17:40:50 公開日:2021-09-11
# (参考訳) MOMENTA: 有害なミームとそのターゲットを検出するマルチモーダルフレームワーク [全文訳有]

MOMENTA: A Multimodal Framework for Detecting Harmful Memes and Their Targets ( http://arxiv.org/abs/2109.05184v1 )

ライセンス: CC BY 4.0
Shraman Pramanick, Shivam Sharma, Dimitar Dimitrov, Md Shad Akhtar, Preslav Nakov and Tanmoy Chakraborty(参考訳) インターネットミームは、政治的、心理的、社会文化的アイデアを伝達する強力な手段となっている。 ミームは典型的にはユーモラスだが、最近では、トロール、サイバーいじめ、虐待に使用される有害なミームのエスカレーションが目撃されている。 このような有害なミームを検知することは、非常に風刺的で暗号的であるため困難である。 さらに、以前の研究はヘイトスピーチやプロパガンダといったミームの特定の側面に焦点を当ててきたが、一般的に害に関する作業はほとんどなく、それに対する特別なデータセットは1つしかなかった。 ここでは、このギャップを埋めることに集中します。 特に,有害ミームの検出と,対象とする社会的実体の特定という,新たな2つの課題の解決を目指す。 最近リリースされたHarMemeデータセットを拡張して、COVID-19とアメリカの政治という2つの一般的なトピックを一般化し、それぞれHarm-CとHarm-Pと名付けました。 次に,有害なミームとそのターゲットを検出するためのマルチモーダルフレームワークであるmomentaを提案する。これは,グローバルおよびローカルな視点を用いて有害なミームを検出する,新しいマルチモーダル(テキスト+イメージ)ディープニューラルモデルである。 MOMENTAはオブジェクトの提案と属性を特定し、オブジェクトとエンティティが与えられたミームで表現される包括的なコンテキストを認識するためにマルチモーダルモデルを使用する。 MOMENTAは解釈可能で一般化可能であり、多くのベースラインを上回っている。

Internet memes have become powerful means to transmit political, psychological, and socio-cultural ideas. Although memes are typically humorous, recent days have witnessed an escalation of harmful memes used for trolling, cyberbullying, and abusing social entities. Detecting such harmful memes is challenging as they can be highly satirical and cryptic. Moreover, while previous work has focused on specific aspects of memes such as hate speech and propaganda, there has been little work on harm in general, and only one specialized dataset for it. Here, we focus on bridging this gap. In particular, we aim to solve two novel tasks: detecting harmful memes and identifying the social entities they target. We further extend the recently released HarMeme dataset to generalize on two prevalent topics - COVID-19 and US politics and name the two datasets as Harm-C and Harm-P, respectively. We then propose MOMENTA (MultimOdal framework for detecting harmful MemEs aNd Their tArgets), a novel multimodal (text + image) deep neural model, which uses global and local perspectives to detect harmful memes. MOMENTA identifies the object proposals and attributes and uses a multimodal model to perceive the comprehensive context in which the objects and the entities are portrayed in a given meme. MOMENTA is interpretable and generalizable, and it outperforms numerous baselines.
翻訳日:2021-09-18 17:27:51 公開日:2021-09-11
# (参考訳) トータルリコール:ニューラルセマンティックパーザのためのカスタマイズされた連続学習法 [全文訳有]

Total Recall: a Customized Continual Learning Method for Neural Semantic Parsers ( http://arxiv.org/abs/2109.05186v1 )

ライセンス: CC BY 4.0
Zhuang Li, Lizhen Qu, Gholamreza Haffari(参考訳) 本稿では,意味解析のための連続学習について検討する。 この設定では、ニューラルセマンティックパーザは、以前のタスクから完全なトレーニングデータにアクセスすることなく、逐次タスクを学習する。 sota連続学習アルゴリズムのこの問題への直接適用は、セマンティックパーサによって得られる構造化出力の特殊特性を考慮していないため、すべてのタスクで再学習モデルと同等の性能を達成できない。 そこで我々は,ニューラル・セマンティック・パーサーのための連続学習手法であるTotalRecallを提案する。 一 論理形式のテンプレートを多様化し、メモリ内のパースアクションの分布のバランスをとるメモリリプレイのサンプリング方法 二 タスク間のパーサーの一般化能力を大幅に向上させる二段階訓練方法。 我々は, 連続的意味解析に関わる研究課題について広範な実験を行い, トータルリコールで訓練したニューラルセマンティックパーザは, SOTA連続学習アルゴリズムで直接訓練したものよりも優れた性能を示し, スクラッチから再学習するよりも3~6倍のスピードアップを達成した。 コードとデータセットは以下の通りである。

This paper investigates continual learning for semantic parsing. In this setting, a neural semantic parser learns tasks sequentially without accessing full training data from previous tasks. Direct application of the SOTA continual learning algorithms to this problem fails to achieve comparable performance with re-training models with all seen tasks because they have not considered the special properties of structured outputs yielded by semantic parsers. Therefore, we propose TotalRecall, a continual learning method designed for neural semantic parsers from two aspects: i) a sampling method for memory replay that diversifies logical form templates and balances distributions of parse actions in a memory; ii) a two-stage training method that significantly improves generalization capability of the parsers across tasks. We conduct extensive experiments to study the research problems involved in continual semantic parsing and demonstrate that a neural semantic parser trained with TotalRecall achieves superior performance than the one trained directly with the SOTA continual learning algorithms and achieve a 3-6 times speedup compared to re-training from scratch. Code and datasets are available at: https://github.com/z huang-li/cl_nsp.
翻訳日:2021-09-18 16:44:49 公開日:2021-09-11
# (参考訳) イベント抽出のための言語モデルからの知識の抽出

Eliciting Knowledge from Language Models for Event Extraction ( http://arxiv.org/abs/2109.05190v1 )

ライセンス: CC BY 4.0
Jiaju Lin, Jin Jian, Qin Chen(参考訳) プロンプトベースの学習を通じて言語モデルに含まれる知識を引き出すことは、テキストの分類や生成など、多くの自然言語処理タスクにおいて大きな可能性を秘めている。 一方、プロンプトの設計は複雑な型と引数のため単純ではないため、イベント抽出のようなより複雑なタスクのアプリケーションはあまり研究されていない。 本稿では,イベントトリガ検出と引数抽出のための事前学習言語モデルから知識を抽出する。 具体的には,異なるトリガや引数間の相互作用をモデル化することにより,より相補的な知識を導出する様々な統合トリガ/アギュメントプロンプト法を提案する。 ベンチマークデータセットであるace2005の実験結果は,提案手法の利点を示している。 特に,我々のアプローチは,少数のサンプルしかトレーニングに使用されていない,最近の先進的な手法よりも優れている。

Eliciting knowledge contained in language models via prompt-based learning has shown great potential in many natural language processing tasks, such as text classification and generation. Whereas, the applications for more complex tasks such as event extraction are less studied, since the design of prompt is not straightforward due to the complicated types and arguments. In this paper, we explore to elicit the knowledge from pre-trained language models for event trigger detection and argument extraction. Specifically, we present various joint trigger/argument prompt methods, which can elicit more complementary knowledge by modeling the interactions between different triggers or arguments. The experimental results on the benchmark dataset, namely ACE2005, show the great advantages of our proposed approach. In particular, our approach is superior to the recent advanced methods in the few-shot scenario where only a few samples are used for training.
翻訳日:2021-09-18 16:23:10 公開日:2021-09-11
# (参考訳) 矯正手術計画における基準ボニー形状推定のための自己監督型ディープフレームワーク [全文訳有]

A Self-Supervised Deep Framework for Reference Bony Shape Estimation in Orthognathic Surgical Planning ( http://arxiv.org/abs/2109.05191v1 )

ライセンス: CC BY 4.0
Deqiang Xiao, Hannah Deng, Tianshu Kuang, Lei Ma, Qin Liu, Xu Chen, Chunfeng Lian, Yankun Lang, Daeseung Kim, Jaime Gateno, Steve Guofang Shen, Dinggang Shen, Pew-Thian Yap, James J. Xia(参考訳) 仮想矯正手術計画では、3次元顔面骨形状モデルにおける顎変形の外科的修正をシミュレートする。 必要な指導がないため、計画手順は経験に依存しており、計画結果はしばしば最適ではない。 正常な解剖を表現する基準顔骨形状モデルは、計画精度を向上させる客観的ガイダンスを提供することができる。 そこで本稿では,顔骨形状モデルを自動的に推定する自己教師型ディープフレームワークを提案する。 我々のフレームワークは、シミュレータと修正器で構成されるエンドツーエンドのトレーニング可能なネットワークである。 トレーニング段階において、シミュレータは、患者の骨の顎変形を正常な骨にマッピングし、シミュレーションされた変形骨を生成する。 補正器は、模擬変形した骨を正常に戻す。 推測段階では、トレーニングされた矯正具を適用して、実際の変形骨から患者固有の正常に見える基準骨を生成する。 提案フレームワークは臨床データセットを用いて評価し,教師付きポイントクラウドネットワークに基づく最先端手法と比較した。 実験の結果, 提案手法により推定された形状モデルは, 臨床において許容され, かつ, 精度が高いことがわかった。

Virtual orthognathic surgical planning involves simulating surgical corrections of jaw deformities on 3D facial bony shape models. Due to the lack of necessary guidance, the planning procedure is highly experience-dependent and the planning results are often suboptimal. A reference facial bony shape model representing normal anatomies can provide an objective guidance to improve planning accuracy. Therefore, we propose a self-supervised deep framework to automatically estimate reference facial bony shape models. Our framework is an end-to-end trainable network, consisting of a simulator and a corrector. In the training stage, the simulator maps jaw deformities of a patient bone to a normal bone to generate a simulated deformed bone. The corrector then restores the simulated deformed bone back to normal. In the inference stage, the trained corrector is applied to generate a patient-specific normal-looking reference bone from a real deformed bone. The proposed framework was evaluated using a clinical dataset and compared with a state-of-the-art method that is based on a supervised point-cloud network. Experimental results show that the estimated shape models given by our approach are clinically acceptable and significantly more accurate than that of the competing method.
翻訳日:2021-09-18 16:22:18 公開日:2021-09-11
# (参考訳) マルチモーダル要約に関する調査研究 [全文訳有]

A Survey on Multi-modal Summarization ( http://arxiv.org/abs/2109.05199v1 )

ライセンス: CC BY 4.0
Anubhav Jangra, Adam Jatowt, Sriparna Saha, Mohammad Hasanuzzaman(参考訳) テクノロジーの新しい時代は、多くのプラットフォームで意見を共有するのに便利である点に私たちを導いてくれた。 これらのプラットフォームは、ユーザーがテキスト、画像、ビデオ、オーディオなど、複数の表現形式で表現できるように規定されている。 しかし、これによってユーザがトピックに関するすべての重要な情報を取得することが難しくなり、mms(automatic multi-modal summarization)のタスクが必須になる。 本稿では,MMS領域における既存研究を包括的に調査する。

The new era of technology has brought us to the point where it is convenient for people to share their opinions over an abundance of platforms. These platforms have a provision for the users to express themselves in multiple forms of representations, including text, images, videos, and audio. This, however, makes it difficult for users to obtain all the key information about a topic, making the task of automatic multi-modal summarization (MMS) essential. In this paper, we present a comprehensive survey of the existing research in the area of MMS.
翻訳日:2021-09-18 16:15:55 公開日:2021-09-11
# (参考訳) 教師なし画像検索のためのコードメモリを用いたコントラスト量子化 [全文訳有]

Contrastive Quantization with Code Memory for Unsupervised Image Retrieval ( http://arxiv.org/abs/2109.05205v1 )

ライセンス: CC BY 4.0
Jinpeng Wang, Ziyun Zeng, Bin Chen, Tao Dai, Shu-Tao Xia(参考訳) 計算とストレージの効率が高いため、大規模な検索システムではハッシュ処理(バイナリハッシュや量子化を含む)が共通の戦略となっている。 高価なアノテーションへの依存を軽減するため、教師なしのディープハッシュは重要な研究課題となる。 本稿では,教師なしの深部量子化,すなわちコードメモリを用いたコントラスト量子化(MeCoQ)について述べる。 既存の再構築戦略と異なり、比較学習により教師なしのバイナリ記述子を学習し、識別的視覚的意味論をよりよく捉えることができる。 さらに、コードワードの多様性の規則化が、対照的な学習に基づく量子化をモデルデジェネレーションから防ぐために重要であることを明らかにする。 さらに,従来の特徴記憶よりも低い特徴ドリフトでコントラスト学習を促進する新しい量子化コードメモリモジュールを提案する。 ベンチマークデータセットの大規模な実験は、MeCoQが最先端の手法より優れていることを示している。

The high efficiency in computation and storage makes hashing (including binary hashing and quantization) a common strategy in large-scale retrieval systems. To alleviate the reliance on expensive annotations, unsupervised deep hashing becomes an important research problem. This paper provides a novel solution to unsupervised deep quantization, namely Contrastive Quantization with Code Memory (MeCoQ). Different from existing reconstruction-based strategies, we learn unsupervised binary descriptors by contrastive learning, which can better capture discriminative visual semantics. Besides, we uncover that codeword diversity regularization is critical to prevent contrastive learning-based quantization from model degeneration. Moreover, we introduce a novel quantization code memory module that boosts contrastive learning with lower feature drift than conventional feature memories. Extensive experiments on benchmark datasets show that MeCoQ outperforms state-of-the-art methods.
翻訳日:2021-09-18 15:43:34 公開日:2021-09-11
# (参考訳) 高精細画像検索のためのピラミッドハイブリッドポーリング量子化 [全文訳有]

Pyramid Hybrid Pooling Quantization for Efficient Fine-Grained Image Retrieval ( http://arxiv.org/abs/2109.05206v1 )

ライセンス: CC BY 4.0
Ziyun Zeng, Jinpeng Wang, Bin Chen, Tao Dai, Shu-Tao Xia(参考訳) ディープ・量子化やディープ・バイナリ・ハッシュを含むディープ・ハッシュ・アプローチは、高い計算能力とストレージ効率のため、大規模な画像検索に対する一般的な解決策となっている。 ほとんどの既存のハッシュ法は、通常、バイナリコードを生成するために最後のCNN層の出力を採用するため、微妙だが識別的な視覚的詳細を捉えるのに効果が低いため、きめ細かな検索に満足できる結果が得られない。 微粒化画像ハッシュを改善するために, ピラミッドハイブリッドポーリング量子化(PHPQ)を提案する。 具体的には,多層機能から細粒度の意味情報を捕捉し,保存するピラミッドハイブリッドポーリング(PHP)モジュールを提案する。 さらに,最も関連するコードワードを最適化し,量子化を改善する部分的注意機構を備えた学習可能な量子化モジュールを提案する。 総合的な実験により、PHPQは最先端のメソッドよりも優れています。

Deep hashing approaches, including deep quantization and deep binary hashing, have become a common solution to large-scale image retrieval due to high computation and storage efficiency. Most existing hashing methods can not produce satisfactory results for fine-grained retrieval, because they usually adopt the outputs of the last CNN layer to generate binary codes, which is less effective to capture subtle but discriminative visual details. To improve fine-grained image hashing, we propose Pyramid Hybrid Pooling Quantization (PHPQ). Specifically, we propose a Pyramid Hybrid Pooling (PHP) module to capture and preserve fine-grained semantic information from multi-level features. Besides, we propose a learnable quantization module with a partial attention mechanism, which helps to optimize the most relevant codewords and improves the quantization. Comprehensive experiments demonstrate that PHPQ outperforms state-of-the-art methods.
翻訳日:2021-09-18 14:41:40 公開日:2021-09-11
# (参考訳) Astronomical:Active Learningを用いたデータの可視化、統合、分類のためのインタラクティブダッシュボード [全文訳有]

AstronomicAL: An interactive dashboard for visualisation, integration and classification of data using Active Learning ( http://arxiv.org/abs/2109.05207v1 )

ライセンス: CC BY 4.0
Grant Stevens, Sotiria Fotopoulou, Malcolm N. Bremer, Oliver Ray(参考訳) astronomicalは、対話的なラベル付けとトレーニングのダッシュボードで、アクティブラーニングを使用して、信頼できるデータセットと堅牢な分類器を作成できる。 この手法は、高い情報ゲインを提供するデータを優先し、実質的に少ないデータでパフォーマンスを改善する。 このシステムは、異なるソースからのデータを視覚化して統合し、不正確なラベルや不均衡なクラスサイズを扱うことができる。 Astronomicalは、さまざまなデータソースから引き出された関心点のより広いコンテキストと詳細の両方に関連する、ドメイン固有のプロットと重要な情報を可視化し、信頼できるラベルを保証する。 さらに、autronationは、カスタムモデルやクエリ戦略など、トレーニングプロセスのすべての側面を探索する機能を提供する。 これにより、ソフトウェアは、ドメイン固有の分類とより汎用的な機械学習戦略の両方を実験するためのツールになります。 フィールドの即時的な要求により、このシステムを天文学的なデータセットで使用することを説明するが、天文学はあらゆる分野のデータセットのために設計されている。 最後に、シンプルな構成ファイルをエクスポートすることで、レイアウト全体、モデル、割り当てられたラベルをコミュニティと共有することができる。 これにより、完全な透明性を実現し、結果の再現プロセスが無力であることを保証する

AstronomicAL is a human-in-the-loop interactive labelling and training dashboard that allows users to create reliable datasets and robust classifiers using active learning. This technique prioritises data that offer high information gain, leading to improved performance using substantially less data. The system allows users to visualise and integrate data from different sources and deal with incorrect or missing labels and imbalanced class sizes. AstronomicAL enables experts to visualise domain-specific plots and key information relating both to broader context and details of a point of interest drawn from a variety of data sources, ensuring reliable labels. In addition, AstronomicAL provides functionality to explore all aspects of the training process, including custom models and query strategies. This makes the software a tool for experimenting with both domain-specific classifications and more general-purpose machine learning strategies. We illustrate using the system with an astronomical dataset due to the field's immediate need; however, AstronomicAL has been designed for datasets from any discipline. Finally, by exporting a simple configuration file, entire layouts, models, and assigned labels can be shared with the community. This allows for complete transparency and ensures that the process of reproducing results is effortless
翻訳日:2021-09-18 14:24:46 公開日:2021-09-11
# (参考訳) ロングテール情報抽出の主な因果関係を明らかにする [全文訳有]

Uncovering Main Causalities for Long-tailed Information Extraction ( http://arxiv.org/abs/2109.05213v1 )

ライセンス: CC BY 4.0
Guoshun Nan, Jiaqi Zeng, Rui Qiao, Zhijiang Guo and Wei Lu(参考訳) 情報抽出(IE)は、構造化されていないテキストから構造情報を抽出することを目的としている。 実際には、データセットの選択バイアスによって引き起こされるロングテール分布は、従来の可能性モデルにおけるエンティティとラベルの間の不正確な相関(スプリアス相関とも呼ばれる)につながる可能性がある。 これは、因果推論の観点からデータの背後にある主な因果関係を明らかにすることを目的とした新しいフレームワークである。 具体的には 1) 変数間の関係を記述した各種IEタスクのための統一構造因果モデル(SCM)を最初に導入する。 2) 本scmでは, 推論段階で直接因果効果をよりよく計算するために, 明示的な言語構造に基づく反事実を生成する。 3) よりロバストな予測を実現するための新しいデバイアス手法を提案する。 5つの公開データセットにわたる3つのIEタスクの実験は、我々のCFIEモデルが突発的な相関問題を緩和する効果を示している。

Information Extraction (IE) aims to extract structural information from unstructured texts. In practice, long-tailed distributions caused by the selection bias of a dataset, may lead to incorrect correlations, also known as spurious correlations, between entities and labels in the conventional likelihood models. This motivates us to propose counterfactual IE (CFIE), a novel framework that aims to uncover the main causalities behind data in the view of causal inference. Specifically, 1) we first introduce a unified structural causal model (SCM) for various IE tasks, describing the relationships among variables; 2) with our SCM, we then generate counterfactuals based on an explicit language structure to better calculate the direct causal effect during the inference stage; 3) we further propose a novel debiasing approach to yield more robust predictions. Experiments on three IE tasks across five public datasets show the effectiveness of our CFIE model in mitigating the spurious correlation issues.
翻訳日:2021-09-18 14:19:29 公開日:2021-09-11
# (参考訳) 超軽量音響パターン認識器の設計のためのインフィルタ計算 [全文訳有]

In-filter Computing For Designing Ultra-light Acoustic Pattern Recognizers ( http://arxiv.org/abs/2109.06171v1 )

ライセンス: CC BY 4.0
Abhishek Ramdas Nair, Shantanu Chakrabartty, and Chetan Singh Thakur(参考訳) 本稿では,iot (smart internet-of-things) で使用する超軽量音響分類器の設計に使用できる新しいフィルタ内計算フレームワークを提案する。 特徴抽出と分類を独立に設計する従来の音響パターン認識器とは異なり,提案アーキテクチャでは,SVM(Support Vector Machine)のカーネルに直接,畳み込みおよび非線形フィルタリング操作を統合する。 この統合の結果、テンプレートベースのSVMとなり、メモリと計算フットプリント(トレーニングと推論)はFPGAベースのIoTプラットフォームで実装できるほど軽量である。 提案するフィルタ内計算フレームワークは十分一般的であるが,本論文では内毛細胞(car-ihc)に基づく音響特徴抽出アルゴリズムを用いた非対称共振器のカスケードを用いて,この概念を実証する。 完全なシステムは、xilinx spartan 7 series field programmable gate array (fpga) の時間多重化と並列パイプライン技術を用いて最適化されている。 本システムでは,1.5kのルックアップテーブル (luts) と2.8kのフリップフロップ (ffs) を用いて,ベンチマーク音声認識タスクにおけるロバストな分類性能を実現することができる。

We present a novel in-filter computing framework that can be used for designing ultra-light acoustic classifiers for use in smart internet-of-things (IoTs). Unlike a conventional acoustic pattern recognizer, where the feature extraction and classification are designed independently, the proposed architecture integrates the convolution and nonlinear filtering operations directly into the kernels of a Support Vector Machine (SVM). The result of this integration is a template-based SVM whose memory and computational footprint (training and inference) is light enough to be implemented on an FPGA-based IoT platform. While the proposed in-filter computing framework is general enough, in this paper, we demonstrate this concept using a Cascade of Asymmetric Resonator with Inner Hair Cells (CAR-IHC) based acoustic feature extraction algorithm. The complete system has been optimized using time-multiplexing and parallel-pipeline techniques for a Xilinx Spartan 7 series Field Programmable Gate Array (FPGA). We show that the system can achieve robust classification performance on benchmark sound recognition tasks using only ~ 1.5k Look-Up Tables (LUTs) and ~ 2.8k Flip-Flops (FFs), a significant improvement over other approaches.
翻訳日:2021-09-18 13:58:58 公開日:2021-09-11
# (参考訳) Bornon: TransformerベースのディープラーニングアプローチによるBengaliイメージキャプション [全文訳有]

Bornon: Bengali Image Captioning with Transformer-based Deep learning approach ( http://arxiv.org/abs/2109.05218v1 )

ライセンス: CC BY 4.0
Faisal Muhammad Shah, Mayeesha Humaira, Md Abidur Rahman Khan Jim, Amit Saha Ami and Shimul Paul(参考訳) エンコーダ-デコーダベースのアプローチによる画像キャプションでは、CNNがエンコーダとして、RNNがデコーダとして、シーケンスジェネレータとして使用される。 しかし、この方法にはシーケンスを順番に処理しなければならない欠点がある。 この欠点を克服するために、ある研究者はTransformerモデルを使用して、英語のデータセットを使用して画像からキャプションを生成する。 しかし、ベンガル語でトランスフォーマーモデルを用いたキャプションは作成されなかった。 その結果,3種類のベンガルデータセットを用いてトランスフォーマーモデルを用いて画像からベンガルキャプションを生成することができた。 さらに,トランスモデルの性能を視覚的注意に基づくエンコーダ・デコーダ手法と比較した。 最後に,変換器モデルとベンガル画像キャプションデータセットを用いた他のモデルとの比較を行った。

Image captioning using Encoder-Decoder based approach where CNN is used as the Encoder and sequence generator like RNN as Decoder has proven to be very effective. However, this method has a drawback that is sequence needs to be processed in order. To overcome this drawback some researcher has utilized the Transformer model to generate captions from images using English datasets. However, none of them generated captions in Bengali using the transformer model. As a result, we utilized three different Bengali datasets to generate Bengali captions from images using the Transformer model. Additionally, we compared the performance of the transformer-based model with a visual attention-based Encoder-Decoder approach. Finally, we compared the result of the transformer-based model with other models that employed different Bengali image captioning datasets.
翻訳日:2021-09-18 13:38:35 公開日:2021-09-11
# (参考訳) オーバー・ザ・エア最適化の基本限界:アナログスキームは最適か? [全文訳有]

Fundamental limits of over-the-air optimization: Are analog schemes optimal? ( http://arxiv.org/abs/2109.05222v1 )

ライセンス: CC BY 4.0
Shubham K Jha, Prathamesh Mayekar, Himanshu Tyagi(参考訳) 符号付き勾配が変分 \sigma^2 の付加的なガウス雑音チャネルに送られる d 次元空間上での空対最適化を考える。 符号語は平均電力制約Pを満たすので、P/\sigma^2の信号対雑音比(SNR)が得られる。 オーバー・ザ・エア最適化のための収束率の境界を導出する。 最初の結果は収束率の低い値であり、任意のコードが約 \sqrt{d/log(1 + SNR)} の係数で収束率を遅くしなければならないことを示す。 次に、勾配の線形関数が送信されるアナログ符号化と呼ばれる一般的なスキームのクラスを考える。 単純なスケールの伝送アナログ符号化方式は, 収束速度を, \sqrt{d(1 + 1/SNR)} の係数で遅くすることを示した。 これは、前の下界を低いSNRの定数要素に一致させ、低いSNRでスケールされた送信方式を最適にする。 しかし,この遅延は任意のアナログ符号化方式に必要であることを示す。 特に、アナログ符号に対する \sqrt{d} の係数による収束の減速は、SNR が無限大の傾向にあるときでも残っている。 振幅シフトキーを用いた簡易量子化・変調スキームを提案し,全snrsの最適収束率をほぼ達成した。

We consider over-the-air convex optimization on a d dimensional space where coded gradients are sent over an additive Gaussian noise channel with variance \sigma^2. The codewords satisfy an average power constraint P, resulting in the signal-to-noise ratio (SNR) of P/\sigma^2. We derive bounds for the convergence rates for over-the-air optimization. Our first result is a lower bound for the convergence rate showing that any code must slowdown the convergence rate by a factor of roughly \sqrt{d/log(1 + SNR)}. Next, we consider a popular class of schemes called analog coding, where a linear function of the gradient is sent. We show that a simple scaled transmission analog coding scheme results in a slowdown in convergence rate by a factor of \sqrt{d(1 + 1/SNR)}. This matches the previous lower bound up to constant factors for low SNR, making the scaled transmission scheme optimal at low SNR. However, we show that this slowdown is necessary for any analog coding scheme. In particular, a slowdown in convergence by a factor of \sqrt{d} for analog coding remains even when SNR tends to infinity. Remarkably, we present a simple quantize-and-modulat e scheme that uses Amplitude Shift Keying and almost attains the optimal convergence rate at all SNRs.
翻訳日:2021-09-17 13:19:30 公開日:2021-09-11
# (参考訳) 組込みクラスタリングによる統計的表現の学習 [全文訳有]

Learning Statistical Representation with Joint Deep Embedded Clustering ( http://arxiv.org/abs/2109.05232v1 )

ライセンス: CC BY 4.0
Mina Rezaei, Emilio Dorigatti, David Ruegamer, Bernd Bischl(参考訳) 教師なし学習の最も有望なアプローチの1つは、深層表現学習と深層クラスタリングの組み合わせである。 最近の研究では、ディープニューラルネットワークを使って同時に表現を学習し、組み込み機能上にクラスタリング損失を定義することでクラスタリングを実行することを提案している。 しかし、これらの手法は不均衡なデータや分布外サンプルに敏感である。 したがって、これらの手法はランダムに初期化されたクラスタセンターにデータをプッシュすることでクラスタリングを最適化する。 これは、インスタンス数がほとんど異なるクラスで変化する場合や、サンプルが少ないクラスタが良いcentroidを割り当てる機会が少ない場合に問題となる。 これらの制約を克服するために,共同統計表現学習とクラスタリングのための新しい教師なしフレームワークStatDECを導入する。 StatDECは2つのディープラーニングモデル、データ分散をキャプチャするディープ統計ネットワーク、組み込み機能を学びクラスタリング損失を明確に定義してクラスタリングを行うディープクラスタリングネットワークを同時にトレーニングする。 具体的には、クラスタリングネットワークと表現ネットワークの両方が、平均、分散、濃度を表す統計プーリング層を利用して、分散サンプルとクラス不均衡を処理する。 実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡画像クラスタリングの結果を大幅に改善できることを示した。 さらに、学習された表現は、分配外データセットに転送されるとよく一般化される。

One of the most promising approaches for unsupervised learning is combining deep representation learning and deep clustering. Some recent works propose to simultaneously learn representation using deep neural networks and perform clustering by defining a clustering loss on top of embedded features. However, these approaches are sensitive to imbalanced data and out-of-distribution samples. Hence, these methods optimize clustering by pushing data close to randomly initialized cluster centers. This is problematic when the number of instances varies largely in different classes or a cluster with few samples has less chance to be assigned a good centroid. To overcome these limitations, we introduce StatDEC, a new unsupervised framework for joint statistical representation learning and clustering. StatDEC simultaneously trains two deep learning models, a deep statistics network that captures the data distribution, and a deep clustering network that learns embedded features and performs clustering by explicitly defining a clustering loss. Specifically, the clustering network and representation network both take advantage of our proposed statistics pooling layer that represents mean, variance, and cardinality to handle the out-of-distribution samples as well as a class imbalance. Our experiments show that using these representations, one can considerably improve results on imbalanced image clustering across a variety of image datasets. Moreover, the learned representations generalize well when transferred to the out-of-distribution dataset.
翻訳日:2021-09-17 12:52:36 公開日:2021-09-11
# (参考訳) Mixture-of-Experts Wait-k Policy を用いたユニバーサル同時機械翻訳 [全文訳有]

Universal Simultaneous Machine Translation with Mixture-of-Experts Wait-k Policy ( http://arxiv.org/abs/2109.05238v1 )

ライセンス: CC BY 4.0
Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(simt)は、原文全体を読む前に翻訳を生成するため、翻訳品質とレイテンシのトレードオフが必要となる。 実用アプリケーションで異なる翻訳品質とレイテンシの要件を満たすため、従来の手法では複数のSiMTモデルを異なるレイテンシレベルでトレーニングする必要があるため、計算コストが大きくなる。 本稿では,任意のレイテンシで最適な翻訳品質を実現するために,Mixture-of-Experts Wait-k Policyを用いた汎用SiMTモデルを提案する。 具体的には,各頭部が待ち語数で待ち語として扱われるような専門家の混在に多面的注意を払っており,テストレイテンシとソース入力が与えられた場合,専門家の重みを順に調整して最適な翻訳を生成する。 3つのデータセットの実験により、我々の手法は、最先端適応ポリシーを含む、異なるレイテンシの下で強いベースラインをすべて上回ることを示した。

Simultaneous machine translation (SiMT) generates translation before reading the entire source sentence and hence it has to trade off between translation quality and latency. To fulfill the requirements of different translation quality and latency in practical applications, the previous methods usually need to train multiple SiMT models for different latency levels, resulting in large computational costs. In this paper, we propose a universal SiMT model with Mixture-of-Experts Wait-k Policy to achieve the best translation quality under arbitrary latency with only one trained model. Specifically, our method employs multi-head attention to accomplish the mixture of experts where each head is treated as a wait-k expert with its own waiting words number, and given a test latency and source inputs, the weights of the experts are accordingly adjusted to produce the best translation. Experiments on three datasets show that our method outperforms all the strong baselines under different latency, including the state-of-the-art adaptive policy.
翻訳日:2021-09-17 12:18:05 公開日:2021-09-11
# (参考訳) ガウス混合モデルを用いたニューラルマシン翻訳のための集中的クロス・アテンションのモデル化 [全文訳有]

Modeling Concentrated Cross-Attention for Neural Machine Translation with Gaussian Mixture Model ( http://arxiv.org/abs/2109.05244v1 )

ライセンス: CC BY 4.0
Shaolei Zhang, Yang Feng(参考訳) クロスアテンションはニューラル・マシン・トランスレーション(NMT)の重要な構成要素であり、従来手法ではドット積の注意によって常に実現されていた。 しかし、ドット積の注意は単語間のペアワイズ相関のみを考慮し、長い文を扱うときに分散し、ソース近傍の関係を無視する。 言語学にインスパイアされた上記の問題は、集中的注意と呼ばれるある種の横断的注意を無視して、いくつかの中心的な単語に焦点を合わせ、その周辺に広がる。 本研究では,ガウス混合モデル(GMM)を用いて,横断的注意の集中度をモデル化する。 3つのデータセットを用いた実験および解析により,提案手法がベースラインを上回り,アライメント品質,n-gram精度,長文翻訳において有意な改善を示した。

Cross-attention is an important component of neural machine translation (NMT), which is always realized by dot-product attention in previous methods. However, dot-product attention only considers the pair-wise correlation between words, resulting in dispersion when dealing with long sentences and neglect of source neighboring relationships. Inspired by linguistics, the above issues are caused by ignoring a type of cross-attention, called concentrated attention, which focuses on several central words and then spreads around them. In this work, we apply Gaussian Mixture Model (GMM) to model the concentrated attention in cross-attention. Experiments and analyses we conducted on three datasets show that the proposed method outperforms the baseline and has significant improvement on alignment quality, N-gram accuracy, and long sentence translation.
翻訳日:2021-09-17 11:46:10 公開日:2021-09-11
# (参考訳) クロスドキュメントコリファレンス解像度データセットにおける多様性の質的・定量的解析 [全文訳有]

Qualitative and Quantitative Analysis of Diversity in Cross-document Coreference Resolution Datasets ( http://arxiv.org/abs/2109.05250v1 )

ライセンス: CC BY 4.0
Anastasia Zhukova, Felix Hamborg, and Bela Gipp(参考訳) ECB+のようなクロスドキュメントコア参照解決(CDCR)データセットには、イベントやエンティティの注釈付きイベント中心の言及が含まれている。 ECB+は最先端のCDCRデータセットであり、イベントの解決とその記述的属性(アクター、ロケーション、日付)に焦点を当てている。 newswcl50は、単語選択とより疎結合なコリファレンスアナフォラ、例えばブリッジや近接id関係の強い分散を持つ、イベントとエンティティの両方のコリファレンスチェーンに注釈をつけるデータセットである。 本稿では、ECB+とNewsWCL50のアノテーションスキームを複数の基準で質的に定量的に比較する。 本稿では,従来提案されていた多くのユニークな補題などよりも詳細なレベルで,コア参照チェーン内の語彙的多様性を比較するための表現的多様性計量(PD)を提案する。 両CDCRデータセットが生み出す様々なタスク、すなわち語彙的曖昧さと語彙的多様性の課題について議論し、さらなるCDCR評価の方向性を提案する。

Cross-document coreference resolution (CDCR) datasets, such as ECB+, contain manually annotated event-centric mentions of events and entities that form coreference chains with identity relations. ECB+ is a state-of-the-art CDCR dataset that focuses on the resolution of events and their descriptive attributes, i.e., actors, location, and date-time. NewsWCL50 is a dataset that annotates coreference chains of both events and entities with a strong variance of word choice and more loosely-related coreference anaphora, e.g., bridging or near-identity relations. In this paper, we qualitatively and quantitatively compare annotation schemes of ECB+ and NewsWCL50 with multiple criteria. We propose a phrasing diversity metric (PD) that compares lexical diversity within coreference chains on a more detailed level than previously proposed metric, e.g., a number of unique lemmas. We discuss the different tasks that both CDCR datasets create, i.e., lexical disambiguation and lexical diversity challenges, and propose a direction for further CDCR evaluation.
翻訳日:2021-09-17 11:31:32 公開日:2021-09-11
# (参考訳) 完全畳み込み型超音波インバージョンによる多層ボンド複合材料の欠陥の定量的再構成 [全文訳有]

Quantitative reconstruction of defects in multi-layered bonded composites using fully convolutional network-based ultrasonic inversion ( http://arxiv.org/abs/2109.07284v1 )

ライセンス: CC BY 4.0
Jing Rao, Fangshu Yang, Huadong Mo, Stefan Kollmannsberger, Ernst Rank(参考訳) 超音波法は多層ボンド複合材料における欠陥の検出と特性評価に非常に有用である。 しかし, 接着性結合の完全性に影響を与え, 集合体の強度を著しく低下させるような, 脱結合やキス結合などの欠陥を定量的に再構築することは依然として困難である。 本研究では,多層複合材料に隠れた欠陥を定量的に再構築するために,教師付き完全畳み込みネットワーク(FCN)に基づく超音波法を提案する。 この方法の訓練過程において,FCNは測定された超音波データから多層接着複合材料の対応する速度モデルへの非線形マッピングを確立する。 予測プロセスでは, 接着性複合材料の新しい測定超音波データから速度モデルを直接再構成するために, 訓練過程から得られたトレーニングネットワークを用いる。 提案手法は多層複合材料の有用な特徴を自動的に抽出する。 この方法はトレーニングプロセスでは計算コストがかかるが、オンラインフェーズでの予測自体は数秒しかかからない。 その結果, FCNを用いた超音波インバージョン法は, 高コントラスト欠陥の超音波速度モデルを高精度に再構成できることがわかった。

Ultrasonic methods have great potential applications to detect and characterize defects in multi-layered bonded composites. However, it remains challenging to quantitatively reconstruct defects, such as disbonds and kissing bonds, that influence the integrity of adhesive bonds and seriously reduce the strength of assemblies. In this work, an ultrasonic method based on the supervised fully convolutional network (FCN) is proposed to quantitatively reconstruct defects hidden in multi-layered bonded composites. In the training process of this method, an FCN establishes a non-linear mapping from measured ultrasonic data to the corresponding velocity models of multi-layered bonded composites. In the predicting process, the trained network obtained from the training process is used to directly reconstruct the velocity models from the new measured ultrasonic data of adhesively bonded composites. The presented FCN-based inversion method can automatically extract useful features in multi-layered composites. Although this method is computationally expensive in the training process, the prediction itself in the online phase takes only seconds. The numerical results show that the FCN-based ultrasonic inversion method is capable to accurately reconstruct ultrasonic velocity models of the high contrast defects, which has great potential for online detection of adhesively bonded composites.
翻訳日:2021-09-17 10:41:20 公開日:2021-09-11
# (参考訳) XCoref: ワイルドでのクロスドキュメント参照解決 [全文訳有]

XCoref: Cross-document Coreference Resolution in the Wild ( http://arxiv.org/abs/2109.05252v1 )

ライセンス: CC BY 4.0
Anastasia Zhukova, Felix Hamborg, Karsten Donnay, and Bela Gipp(参考訳) Datasets and Methods for cross-document coreference resolution (CDCR)は、厳密なコア参照関係を持つイベントやエンティティに焦点を当てる。 しかし、ニュース記事が物議を醸し、偏った出来事について報告するときに起こるような、より抽象的あるいは緩やかな関係で、中核論の注釈と解決を欠いている。 ブリッジングとゆるいコリファレンスの関係は、ニュース読者が単語の選択とラベル付けによってバイアスにさらされることにつながる可能性がある。 例えば、ドナルド・トランプとキムの直接会談、例えば「数ヶ月にわたる熱いレトリックの後の異常な会議」や「世界の問題を解決する大きなチャンス」は、この出来事に対するより肯定的な認識を形作っている。 単語の選択とラベリングによってバイアスの認識をもたらすためのステップは、語彙多様性の高いコリファレンスの信頼性の高い解決である。 我々は、例えば、ドナルド・トランプ(Donald Trump)のような、以前流行していた人物だけでなく、人々の集団、移民のキャラバン(caravan ofmigrant)、出来事や行動、例えば「米国国境へのマーチング(marching to the U.S. border)」など、抽象的に定義された概念を、CDCRで解決する手法であるXCorefを提案する。 本稿では,提案手法を最先端CDCR法と比較し,複雑なコア参照関係を解消し,XCorefがこれらの手法より優れていることを示す。 確立されたCDCRモデルのパフォーマンスは、政治ニュース記事の「ワイルド」における言及を解決するためのモデルの適用性を示すために、より緩やかなコア参照関係を持つ意味論的に複雑な言及に基づいて、新しいCDCRモデルを評価する必要があることを示している。

Datasets and methods for cross-document coreference resolution (CDCR) focus on events or entities with strict coreference relations. They lack, however, annotating and resolving coreference mentions with more abstract or loose relations that may occur when news articles report about controversial and polarized events. Bridging and loose coreference relations trigger associations that may lead to exposing news readers to bias by word choice and labeling. For example, coreferential mentions of "direct talks between U.S. President Donald Trump and Kim" such as "an extraordinary meeting following months of heated rhetoric" or "great chance to solve a world problem" form a more positive perception of this event. A step towards bringing awareness of bias by word choice and labeling is the reliable resolution of coreferences with high lexical diversity. We propose an unsupervised method named XCoref, which is a CDCR method that capably resolves not only previously prevalent entities, such as persons, e.g., "Donald Trump," but also abstractly defined concepts, such as groups of persons, "caravan of immigrants," events and actions, e.g., "marching to the U.S. border." In an extensive evaluation, we compare the proposed XCoref to a state-of-the-art CDCR method and a previous method TCA that resolves such complex coreference relations and find that XCoref outperforms these methods. Outperforming an established CDCR model shows that the new CDCR models need to be evaluated on semantically complex mentions with more loose coreference relations to indicate their applicability of models to resolve mentions in the "wild" of political news articles.
翻訳日:2021-09-17 10:24:45 公開日:2021-09-11
# (参考訳) マルチスレッド機械学習アルゴリズムによるベンチマーク処理性能 [全文訳有]

Benchmarking Processor Performance by Multi-Threaded Machine Learning Algorithms ( http://arxiv.org/abs/2109.05276v1 )

ライセンス: CC BY 4.0
Muhammad Fahad Saleem(参考訳) 機械学習アルゴリズムにより、コンピュータは以前のデータから学習することで物事を予測することができる。 データストレージと処理能力は急速に増加しており、機械学習と人工知能の応用が増加している。 過去に構築されたモデルの精度を向上させるために多くの研究が行われており、機械学習の買収の計算コストを決定する研究はほとんど行われていない。 本稿では、この後の研究を進め、マルチスレッド機械学習クラスタリングアルゴリズムの性能比較を行う。 私は、アルゴリズムの性能特性と、得られた結果に対する計算コストを決定するために、線形回帰、ランダムフォレスト、およびK-Nearest Neighborsに取り組んでいます。 マルチスレッドアルゴリズムを実行して、データセット上でモデルのトレーニングとテストを行い、アルゴリズムのパフォーマンスマトリックスの違いに注意することで、システムハードウェアのパフォーマンスをベンチマークします。 最終的に、これらのアルゴリズムの性能効率に関する最良のアルゴリズムを、私のシステム上で述べます。

Machine learning algorithms have enabled computers to predict things by learning from previous data. The data storage and processing power are increasing rapidly, thus increasing machine learning and Artificial intelligence applications. Much of the work is done to improve the accuracy of the models built in the past, with little research done to determine the computational costs of machine learning acquisitions. In this paper, I will proceed with this later research work and will make a performance comparison of multi-threaded machine learning clustering algorithms. I will be working on Linear Regression, Random Forest, and K-Nearest Neighbors to determine the performance characteristics of the algorithms as well as the computation costs to the obtained results. I will be benchmarking system hardware performance by running these multi-threaded algorithms to train and test the models on a dataset to note the differences in performance matrices of the algorithms. In the end, I will state the best performing algorithms concerning the performance efficiency of these algorithms on my system.
翻訳日:2021-09-17 10:08:38 公開日:2021-09-11
# (参考訳) COSMic:画像記述のためのコヒーレンス対応生成メトリック [全文訳有]

COSMic: A Coherence-Aware Generation Metric for Image Descriptions ( http://arxiv.org/abs/2109.05281v1 )

ライセンス: CC BY 4.0
Mert \.Inan, Piyush Sharma, Baber Khalid, Radu Soricut, Matthew Stone, Malihe Alikhani(参考訳) テキスト生成モデルの開発者は、遅くて高価な手動評価のためのスタンドインとして、自動評価メトリクスを頼りにしている。 しかし、画像キャプションの指標は、アウトプットテキストのセマンティックスと実用的成功の正確な評価に苦慮している。 画像記述を評価するための最初の談話認識学習生成指標を導入することで、この弱点に対処する。 このアプローチは、コヒーレンスを用いて情報目標を捉えるための談話の計算理論に着想を得ている。 我々はコヒーレンス関係を付加した画像$\unicode{x2013}$description pairsのデータセットを示す。 次に、概念キャプションデータセットのサブセット上でコヒーレンス認識メトリックをトレーニングし、その有効性を測定する。 出力キャプションのヒューマン評価を予測できる機能$\unicode{x2014}$ ドメイン外の画像からなるテストセットに対して$\unicode{x2014}$ である。 BLEURT や BERTScore などの最近提案された学習指標を含む他のいくつかの指標と比較して,多数の最先端コヒーレンス・アウェア・キャプション生成モデルの結果に対する人間の判断と,提案指標に対するケンドール相関係数を高く示す。

Developers of text generation models rely on automated evaluation metrics as a stand-in for slow and expensive manual evaluations. However, image captioning metrics have struggled to give accurate learned estimates of the semantic and pragmatic success of output text. We address this weakness by introducing the first discourse-aware learned generation metric for evaluating image descriptions. Our approach is inspired by computational theories of discourse for capturing information goals using coherence. We present a dataset of image$\unicode{x2013}$description pairs annotated with coherence relations. We then train a coherence-aware metric on a subset of the Conceptual Captions dataset and measure its effectiveness$\unico de{x2014}$its ability to predict human ratings of output captions$\unicode{x2014}$on a test set composed of out-of-domain images. We demonstrate a higher Kendall Correlation Coefficient for our proposed metric with the human judgments for the results of a number of state-of-the-art coherence-aware caption generation models when compared to several other metrics including recently proposed learned metrics such as BLEURT and BERTScore.
翻訳日:2021-09-17 10:02:23 公開日:2021-09-11
# (参考訳) 名前の由来は? オープンドメイン質問応答に対する回答等価性 [全文訳有]

What's in a Name? Answer Equivalence For Open-Domain Question Answering ( http://arxiv.org/abs/2109.05289v1 )

ライセンス: CC BY 4.0
Chenglei Si, Chen Zhao, Jordan Boyd-Graber(参考訳) QA評価の欠点は、アノテーションが1つのゴールド回答しか提供しないことだ。 したがって、モデル予測は、答えと意味的に等価であるが、表面的に異なるものと見なされる。 この研究は、知識ベースからエイリアス実体を採掘し、それを追加の金の解答(すなわち等価な解答)として利用する。 追加回答による評価と等価回答によるモデルトレーニングの2つの設定に回答を組み込む。 我々は、Nature Questions、TriviaQA、SQuADの3つのQAベンチマークを分析します。 answer拡張は、評価のためのすべてのデータセットの正確な一致スコアを増加させ、現実世界のデータセットに対するモデルのトレーニングに役立つ。 追加の回答がヒトのポストホック評価によって有効であることを保証します。

A flaw in QA evaluation is that annotations often only provide one gold answer. Thus, model predictions semantically equivalent to the answer but superficially different are considered incorrect. This work explores mining alias entities from knowledge bases and using them as additional gold answers (i.e., equivalent answers). We incorporate answers for two settings: evaluation with additional answers and model training with equivalent answers. We analyse three QA benchmarks: Natural Questions, TriviaQA, and SQuAD. Answer expansion increases the exact match score on all datasets for evaluation, while incorporating it helps model training over real-world datasets. We ensure the additional answers are valid through a human post hoc evaluation.
翻訳日:2021-09-17 09:45:18 公開日:2021-09-11
# (参考訳) Latent Hatred: 意図しないヘイトスピーチを理解するためのベンチマーク [全文訳有]

Latent Hatred: A Benchmark for Understanding Implicit Hate Speech ( http://arxiv.org/abs/2109.05322v1 )

ライセンス: CC BY 4.0
Mai ElSherief, Caleb Ziems, David Muchlinski, Vaishnavi Anupindi, Jordyn Seybolt, Munmun De Choudhury, Diyi Yang(参考訳) ヘイトスピーチはソーシャルメディア上で大きく成長し、全人口の犠牲者に深刻な影響をもたらした。 差別的スピーチを特徴づけ、検出するために多くの注意が払われているが、ほとんどの研究は明示的あるいは過度なヘイトスピーチに焦点を当てており、コード化された言語や間接的な言語に基づくより広範に表現できない。 このギャップを埋めるため、本研究では、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージに対するきめ細かいラベルを含むベンチマークコーパスとその含意を導入する。 我々は,現代のベースラインを用いて,暗黙のヘイトスピーチを検出・説明するために,データセットの系統的分析を行い,既存のモデルに挑戦する重要な特徴について議論する。 このデータセットは、この多面的な問題を理解するための有用なベンチマークとして引き続き機能する。

Hate speech has grown significantly on social media, causing serious consequences for victims of all demographics. Despite much attention being paid to characterize and detect discriminatory speech, most work has focused on explicit or overt hate speech, failing to address a more pervasive form based on coded or indirect language. To fill this gap, this work introduces a theoretically-justif ied taxonomy of implicit hate speech and a benchmark corpus with fine-grained labels for each message and its implication. We present systematic analyses of our dataset using contemporary baselines to detect and explain implicit hate speech, and we discuss key features that challenge existing models. This dataset will continue to serve as a useful benchmark for understanding this multifaceted issue.
翻訳日:2021-09-17 09:35:41 公開日:2021-09-11
# (参考訳) 保護と奉仕のため? 警察暴力の実体中心フレームの分析 [全文訳有]

To Protect and To Serve? Analyzing Entity-Centric Framing of Police Violence ( http://arxiv.org/abs/2109.05325v1 )

ライセンス: CC BY 4.0
Caleb Ziems, Diyi Yang(参考訳) フレイミングは世論や政策に顕著だが微妙な影響を及ぼす。 エンティティ中心のフレームを測定するためのNLPフレームワークを提案する。 我々は、米国の警察暴力に関するメディアの報道を理解するために、警察暴力フレームコーパスが7万5000人の警官を殺害したニュース記事82万件を投稿した。 私たちの研究は、何十種類ものフレーミングデバイスを発見し、リベラルなニュースソースと保守的なニュースソースが、警察の暴力と関係する組織の両方に、重大な違いを明らかにしています。 保守的な情報源は、被害者が武装したり、警官を攻撃している時に、被害者の犯罪記録に言及する可能性が高いことを強調している。 リベラルな情報源は、被害者の人種と武装していないことを強調し、より体系的な不正に焦点を当てている。 我々は、これらの不正フレームの一時的なスパイクを高名な撮影イベントの近くで発見し、最後に、抗議ボリュームがメディアフレーミング決定と相関し、先行することを示す。

Framing has significant but subtle effects on public opinion and policy. We propose an NLP framework to measure entity-centric frames. We use it to understand media coverage on police violence in the United States in a new Police Violence Frames Corpus of 82k news articles spanning 7k police killings. Our work uncovers more than a dozen framing devices and reveals significant differences in the way liberal and conservative news sources frame both the issue of police violence and the entities involved. Conservative sources emphasize when the victim is armed or attacking an officer and are more likely to mention the victim's criminal record. Liberal sources focus more on the underlying systemic injustice, highlighting the victim's race and that they were unarmed. We discover temporary spikes in these injustice frames near high-profile shooting events, and finally, we show protest volume correlates with and precedes media framing decisions.
翻訳日:2021-09-17 09:14:15 公開日:2021-09-11
# (参考訳) スピニフェルを用いた単粒子イメージング実験における三次元構造決定のスケーリングと加速 [全文訳有]

Scaling and Acceleration of Three-dimensional Structure Determination for Single-Particle Imaging Experiments with SpiniFEL ( http://arxiv.org/abs/2109.05339v1 )

ライセンス: CC BY 4.0
Hsing-Yin Chang, Elliott Slaughter, Seema Mirchandaney, Jeffrey Donatelli, Chun Hong Yoon(参考訳) ライナックコヒーレント光源(Linac Coherent Light Source、LCLS)は、X線自由電子レーザー(XFEL)装置であり、単一分子の構造と動力学の研究を可能にする。 大規模なアップグレードにより、X線源の繰り返しレートは毎秒120万パルスから100万パルスになる。 対応するデータレートを処理するには、exascale high performance computing (hpc)機能が必要である。 単粒子イメージング(SPI)実験からタンパク質の構造決定に使用されるSpiniFELについて述べる。 個々のタンパク質やその他の大きな分子複合体を放射能による損傷からイメージングする新しい技術であるspiは、結晶化の必要性(いくつかのタンパク質では難しい)をなくし、近距離での分子動力学のイメージングを可能にする。 SpiniFELは実験中にほぼリアルタイムでスーパーコンピュータ上で動作するために開発されており、データに対するフィードバックがデータ収集戦略を導くことができる。 ここでは、並列化可能な実装のために数学的フレームワークを再構成し、アプリケーションの最も計算集約的な部分を加速する方法を説明します。 また、LegionタスクベースのプログラミングモデルのためのPythonインターフェースであるPygionの使用について述べ、既存のMPI+GPU実装と比較する。

The Linac Coherent Light Source (LCLS) is an X- ray free electron laser (XFEL) facility enabling the study of the structure and dynamics of single macromolecules. A major upgrade will bring the repetition rate of the X-ray source from 120 to 1 million pulses per second. Exascale high performance computing (HPC) capabilities will be required to process the corresponding data rates. We present SpiniFEL, an application used for structure determination of proteins from single-particle imaging (SPI) experiments. An emerging technique for imaging individual proteins and other large molecular complexes by outrunning radiation damage, SPI breaks free from the need for crystallization (which is difficult for some proteins) and allows for imaging molecular dynamics at near ambient conditions. SpiniFEL is being developed to run on supercomputers in near real-time while an experiment is taking place, so that the feedback about the data can guide the data collection strategy. We describe here how we reformulated the mathematical framework for parallelizable implementation and accelerated the most compute intensive parts of the application. We also describe the use of Pygion, a Python interface for the Legion task-based programming model and compare to our existing MPI+GPU implementation.
翻訳日:2021-09-17 08:44:29 公開日:2021-09-11
# (参考訳) BGT-Net:シーングラフ生成のための双方向GRUトランスネットワーク [全文訳有]

BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation ( http://arxiv.org/abs/2109.05346v1 )

ライセンス: CC BY-SA 4.0
Naina Dhingra, Florian Ritter, Andreas Kunz(参考訳) シーングラフは、それぞれオブジェクトとオブジェクトの関係からなるノードとエッジである。 シーングラフ生成(SGG)は、オブジェクトとその関係を識別することを目的としている。 画像のシーングラフ生成のための双方向GRU(BiGRU)トランスフォーマーネットワーク(BGT-Net)を提案する。 このモデルは、BiGRU層を用いたオブジェクト情報を強化するために、新しいオブジェクトオブジェクト通信を実装している。 したがって、画像内の全てのオブジェクトの情報は、他のオブジェクトに対して利用可能であり、オブジェクト予測ステップの後半で利用することができる。 このオブジェクト情報は、変換器エンコーダでオブジェクトクラスを予測したり、別の変換器エンコーダを使用してオブジェクト固有のエッジ情報を作成するために使用される。 長期関係分布によって引き起こされるデータセットバイアスに対処し、対数ソフトマックス関数とのソフト化と、個々の関係予測毎にバイアスを調整するバイアス適応項の追加を効果的に行う。 本研究では,オープンソースデータセット,すなわち視覚ゲノム,オープン画像,視覚関係検出データセットを用いた実験とアブレーションに関する精巧な研究を行い,提案モデルの有効性を実証した。

Scene graphs are nodes and edges consisting of objects and object-object relationships, respectively. Scene graph generation (SGG) aims to identify the objects and their relationships. We propose a bidirectional GRU (BiGRU) transformer network (BGT-Net) for the scene graph generation for images. This model implements novel object-object communication to enhance the object information using a BiGRU layer. Thus, the information of all objects in the image is available for the other objects, which can be leveraged later in the object prediction step. This object information is used in a transformer encoder to predict the object class as well as to create object-specific edge information via the use of another transformer encoder. To handle the dataset bias induced by the long-tailed relationship distribution, softening with a log-softmax function and adding a bias adaptation term to regulate the bias for every relation prediction individually showed to be an effective approach. We conducted an elaborate study on experiments and ablations using open-source datasets, i.e., Visual Genome, Open-Images, and Visual Relationship Detection datasets, demonstrating the effectiveness of the proposed model over state of the art.
翻訳日:2021-09-17 08:36:23 公開日:2021-09-11
# (参考訳) Border-SegGCN:グラフ畳み込みネットワークを用いた境界アウトラインの精細化によるセマンティックセグメンテーションの改善 [全文訳有]

Border-SegGCN: Improving Semantic Segmentation by Refining the Border Outline using Graph Convolutional Network ( http://arxiv.org/abs/2109.05353v1 )

ライセンス: CC BY-SA 4.0
Naina Dhingra, George Chogovadze, Andreas Kunz(参考訳) 本稿では,グラフ畳み込みネットワーク(gcn)を用いて境界輪郭を精錬し,意味セグメンテーションを改善する新しいアーキテクチャであるborder-seggcnを提案する。 UnetやDeepLabV3+のようなセマンティックセグメンテーションネットワークは、事前にセグメンテーションされた出力を持つベースネットワークとして使用される。 この出力はグラフィカルな構造に変換され、gcnに供給され、プレセグメンテーションされた出力の境界画素予測を改善する。 実験を行い,境界の厚さ,ノードのエッジ数,gcnに供給すべき特徴数などの要因を調査し検討した。 camvidおよびcarlaデータセットにおけるborder-seggcnの有効性を実証し、camvidデータセットの処理後なしで81.96%のテストセット性能を達成する。 CamVidデータセットで達成されたmIoUの報告された状態よりも0.404%高い。

We present Border-SegGCN, a novel architecture to improve semantic segmentation by refining the border outline using graph convolutional networks (GCN). The semantic segmentation network such as Unet or DeepLabV3+ is used as a base network to have pre-segmented output. This output is converted into a graphical structure and fed into the GCN to improve the border pixel prediction of the pre-segmented output. We explored and studied the factors such as border thickness, number of edges for a node, and the number of features to be fed into the GCN by performing experiments. We demonstrate the effectiveness of the Border-SegGCN on the CamVid and Carla dataset, achieving a test set performance of 81.96% without any post-processing on CamVid dataset. It is higher than the reported state of the art mIoU achieved on CamVid dataset by 0.404%
翻訳日:2021-09-17 08:24:37 公開日:2021-09-11
# (参考訳) 言語記述から学ぶ:分解フレームワークによる低ショット名前付きエンティティ認識 [全文訳有]

Learning from Language Description: Low-shot Named Entity Recognition via Decomposed Framework ( http://arxiv.org/abs/2109.05357v1 )

ライセンス: CC BY 4.0
Yaqing Wang, Haoda Chu, Chao Zhang, Jing Gao(参考訳) 本研究では,低リソースシナリオにおける名前付きエンティティ認識(NER)の問題について検討し,ほとんどショットやゼロショットの設定に焦点をあてる。 大規模な事前学習型言語モデルに基づいて,自然言語の監視から学習し,ドメイン内のラベル付きデータを用いることなく,見つからないエンティティクラスを識別できる新しいNERフレームワークであるSpanNERを提案する。 5つのベンチマークデータセットを広範囲に実験し,提案手法を小数点学習,ドメイン転送,ゼロショット学習で評価した。 実験の結果,提案手法は,単発学習,ドメイン転送,ゼロショット学習において,最良ベースラインよりも10%,23%,26%改善できることがわかった。

In this work, we study the problem of named entity recognition (NER) in a low resource scenario, focusing on few-shot and zero-shot settings. Built upon large-scale pre-trained language models, we propose a novel NER framework, namely SpanNER, which learns from natural language supervision and enables the identification of never-seen entity classes without using in-domain labeled data. We perform extensive experiments on 5 benchmark datasets and evaluate the proposed method in the few-shot learning, domain transfer and zero-shot learning settings. The experimental results show that the proposed method can bring 10%, 23% and 26% improvements in average over the best baselines in few-shot learning, domain transfer and zero-shot learning settings respectively.
翻訳日:2021-09-17 08:13:02 公開日:2021-09-11
# (参考訳) 談話認識コモンセンス知識モデルを用いた暗黙的前提生成 [全文訳有]

Implicit Premise Generation with Discourse-aware Commonsense Knowledge Models ( http://arxiv.org/abs/2109.05358v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Aadit Trivedi, and Smaranda Muresan(参考訳) エンサイメムは前提や結論が暗黙的に残される引数として定義される。 我々は、暗黙の前提を暗黙の前提で生成するタスクに取り組む。これは、述べられている結論と前提を理解するだけでなく、常識知識に依存する可能性のある追加の推論を必要とする。 エンティメムのための最大のデータセット(Habernal et al., 2018)は1.7kサンプルで構成されており、ニューラルテキスト生成モデルのトレーニングには不十分である。 この問題に対処するために、同様のタスクとデータセットを利用する: 物語テキストにおける帰納的推論(Bhagavatula et al., 2020)。 しかし、このデータに微調整された最先端のseq2seqモデルを使用することで、与えられたエントロメムに関連する意味のある暗黙的な前提を生成できないことを示す。 微調整中の談話認識コモンセンスの符号化は,生成した暗黙的前提の品質を向上し,3つの異なるデータセットにおける自動評価と人的評価の両方において,他のすべてのベースラインを上回ることを実証する。

Enthymemes are defined as arguments where a premise or conclusion is left implicit. We tackle the task of generating the implicit premise in an enthymeme, which requires not only an understanding of the stated conclusion and premise but also additional inferences that could depend on commonsense knowledge. The largest available dataset for enthymemes (Habernal et al., 2018) consists of 1.7k samples, which is not large enough to train a neural text generation model. To address this issue, we take advantage of a similar task and dataset: Abductive reasoning in narrative text (Bhagavatula et al., 2020). However, we show that simply using a state-of-the-art seq2seq model fine-tuned on this data might not generate meaningful implicit premises associated with the given enthymemes. We demonstrate that encoding discourse-aware commonsense during fine-tuning improves the quality of the generated implicit premises and outperforms all other baselines both in automatic and human evaluations on three different datasets.
翻訳日:2021-09-17 07:56:13 公開日:2021-09-11
# (参考訳) 適応型ネットワーク信頼性解析法と電力グリッドへの応用 [全文訳有]

Adaptive network reliability analysis: Methodology and applications to power grid ( http://arxiv.org/abs/2109.05360v1 )

ライセンス: CC BY 4.0
Nariman L. Dehghani, Soroush Zamanian and Abdollah Shafieezadeh(参考訳) フローネットワークモデルは、電力グリッドや輸送、水道網を含む多くのネットワークシステムの基盤となる物理と運用上の制約を捉えることができる。 しかしながら、計算コストの高いフローベースモデルを用いたシステムの信頼性分析は、特にレアなイベントに対する大きな課題に直面している。 信頼性解析における新たな期待方向を示す既存の訓練されたメタモデルは、高次元問題や離散的あるいは混合的な変数入力を扱えないため、ネットワークには適用できない。 本研究では,ベイジアン付加回帰木(ANR-BART)を用いた適応代理型ネットワーク信頼性解析を行った。 このアプローチは、予測変数の空間上でbartによって導かれる信頼できる間隔と推定限界状態への点の近接に基づいて、最も価値のあるトレーニングサンプルを識別するアクティブラーニング法によるbartとモンテカルロシミュレーション(mcs)を統合する。 IEEE30,57,118,300バスシステムなどのベンチマーク電力グリッドとそのカスケード故障解析のための電力フローモデルについて,ANR-BART,MCS,サブセットシミュレーション,受動的に学習した最適深部ニューラルネットワーク,BARTについて検討する。 その結果、ANR-BARTは堅牢であり、信頼性解析の計算コストを大幅に削減しつつ、ネットワーク障害確率の正確な推定値が得られることがわかった。

Flow network models can capture the underlying physics and operational constraints of many networked systems including the power grid and transportation and water networks. However, analyzing reliability of systems using computationally expensive flow-based models faces substantial challenges, especially for rare events. Existing actively trained meta-models, which present a new promising direction in reliability analysis, are not applicable to networks due to the inability of these methods to handle high-dimensional problems as well as discrete or mixed variable inputs. This study presents the first adaptive surrogate-based Network Reliability Analysis using Bayesian Additive Regression Trees (ANR-BART). This approach integrates BART and Monte Carlo simulation (MCS) via an active learning method that identifies the most valuable training samples based on the credible intervals derived by BART over the space of predictor variables as well as the proximity of the points to the estimated limit state. Benchmark power grids including IEEE 30, 57, 118, and 300-bus systems and their power flow models for cascading failure analysis are considered to investigate ANR-BART, MCS, subset simulation, and passively-trained optimal deep neural networks and BART. Results indicate that ANR-BART is robust and yields accurate estimates of network failure probability, while significantly reducing the computational cost of reliability analysis.
翻訳日:2021-09-17 07:46:36 公開日:2021-09-11
# (参考訳) 昆虫に触発されたランダムな重み付きニューラルネットワークによるニューロ・シンボリック関係学習 [全文訳有]

An Insect-Inspired Randomly, Weighted Neural Network with Random Fourier Features For Neuro-Symbolic Relational Learning ( http://arxiv.org/abs/2109.06663v1 )

ライセンス: CC BY-SA 4.0
Jinyung Hong, Theodore P. Pavlic(参考訳) フルーツハエやハチミツバチのような昆虫は、単純な連想学習のタスクを解き、より高次の認知機能と見なされ、通常はトップダウンの新皮質処理に依存していると考えられる「サムネス」や「差」といった抽象概念を学ぶことができる。 フルーツハエによる実証研究は、ランダムな表現アーキテクチャが昆虫の脳の嗅覚処理に用いられていることを強く支持している。 これらの結果に基づき、適応線形モデルをデコーダとして利用するエンコーダにランダムに描画された未学習重みを組み込んだランダム重み付き特徴ネットワーク(RWFN)を提案する。 入力ニューロンと入力脳の高次処理中心の間のランダムなプロジェクションは、カーネル近似を用いて入力間の複雑な関係をより良く表現するランダムフーリエ特徴を用いて隠蔽層内の潜伏表現を特別に構築する単一隠れ層ニューラルネットワークによってRWFNで模倣される。 この特殊表現により、RWFNは線形デコーダモデルのみを訓練することで、入力間の関係の度合いを効果的に学習することができる。 rwfn と ltns の比較を行った結果,一階述語論理による推論の方法がデータ駆動型メソッドの性能を上回っていることを示す代表的な例として,意味的画像解釈 (sii) タスクが用いられた。 LTNと比較して、RWFNはより少ない学習パラメータ(1:62比)と高速な学習プロセス(1:2比)を使用しながら、SIIタスクにおけるオブジェクトの分類とオブジェクト間の部分関係の検出の両方において、より良い、あるいは類似した性能を達成できることを示した。 さらに、ランダム化重みはデータに依存しないため、複数のデコーダが単一のランダム化エンコーダを共有でき、RWFNは同時分類タスクのための空間スケールのユニークな経済性を与える。

Insects, such as fruit flies and honey bees, can solve simple associative learning tasks and learn abstract concepts such as "sameness" and "difference", which is viewed as a higher-order cognitive function and typically thought to depend on top-down neocortical processing. Empirical research with fruit flies strongly supports that a randomized representational architecture is used in olfactory processing in insect brains. Based on these results, we propose a Randomly Weighted Feature Network (RWFN) that incorporates randomly drawn, untrained weights in an encoder that uses an adapted linear model as a decoder. The randomized projections between input neurons and higher-order processing centers in the input brain is mimicked in RWFN by a single-hidden-layer neural network that specially structures latent representations in the hidden layer using random Fourier features that better represent complex relationships between inputs using kernel approximation. Because of this special representation, RWFNs can effectively learn the degree of relationship among inputs by training only a linear decoder model. We compare the performance of RWFNs to LTNs for Semantic Image Interpretation (SII) tasks that have been used as a representative example of how LTNs utilize reasoning over first-order logic to surpass the performance of solely data-driven methods. We demonstrate that compared to LTNs, RWFNs can achieve better or similar performance for both object classification and detection of the part-of relations between objects in SII tasks while using much far fewer learnable parameters (1:62 ratio) and a faster learning process (1:2 ratio of running speed). Furthermore, we show that because the randomized weights do not depend on the data, several decoders can share a single randomized encoder, giving RWFNs a unique economy of spatial scale for simultaneous classification tasks.
翻訳日:2021-09-17 07:18:29 公開日:2021-09-11
# (参考訳) オムニプロディクター

Omnipredictors ( http://arxiv.org/abs/2109.05389v1 )

ライセンス: CC BY 4.0
Parikshit Gopalan, Adam Tauman Kalai, Omer Reingold, Vatsal Sharan, Udi Wieder(参考訳) 損失最小化は機械学習において支配的なパラダイムであり、予測者は不確定な事象(例えば「明日雨が降る?」)に依存する損失関数を最小化するように訓練される。 異なる損失関数は、異なる学習アルゴリズムと、時に非常に異なる予測器を暗示する。 広く、魅力的であるが、このアプローチの明らかな欠点は、学習時に損失関数が知られておらず、アルゴリズムが最良損失関数を使用する必要があることである。 機械学習における損失最小化のための厳密な新しいパラダイムを提案する。このパラダイムでは、学習時に損失関数を無視でき、アクションを決定する際にのみ考慮される。 我々は、({\mathcal{L}},\mathcal{C}$)-omnipredictorの概念を導入します。 損失関数が設定されると、予測器の出力は後処理(個々の予測の単変量データ非依存変換)され、クラス $\mathcal{C}$ の任意の仮説とよく比較できる。 ポスト処理は、基本的に、予測子の出力が不確かな事象の真の確率である場合の処理である。 ある意味で、omnipredictorは$\mathcal{l}$の損失関数に関係なく、$\mathcal{c}$のクラスからすべての予測力を抽出する。 アルゴリズム的公平性という文脈で導入された概念であるマルチカリブレーション(multicalibration)との関連により,このような「失われた聖書的」学習が実現可能であることを示す。 さらに, マルチキャリブレーションは, 過去の結果に新たな光を放ちながら, 不可視的ブースティングのソリューション概念として捉えることができることを示す。 最後に,多群損失最小化のための全予測器を提供することにより,アルゴリズムフェアネスの文脈に洞察を戻す。

Loss minimization is a dominant paradigm in machine learning, where a predictor is trained to minimize some loss function that depends on an uncertain event (e.g., "will it rain tomorrow?''). Different loss functions imply different learning algorithms and, at times, very different predictors. While widespread and appealing, a clear drawback of this approach is that the loss function may not be known at the time of learning, requiring the algorithm to use a best-guess loss function. We suggest a rigorous new paradigm for loss minimization in machine learning where the loss function can be ignored at the time of learning and only be taken into account when deciding an action. We introduce the notion of an (${\mathcal{L}},\mathcal{C}$)-omnipredictor, which could be used to optimize any loss in a family ${\mathcal{L}}$. Once the loss function is set, the outputs of the predictor can be post-processed (a simple univariate data-independent transformation of individual predictions) to do well compared with any hypothesis from the class $\mathcal{C}$. The post processing is essentially what one would perform if the outputs of the predictor were true probabilities of the uncertain events. In a sense, omnipredictors extract all the predictive power from the class $\mathcal{C}$, irrespective of the loss function in $\mathcal{L}$. We show that such "loss-oblivious'' learning is feasible through a connection to multicalibration, a notion introduced in the context of algorithmic fairness. In addition, we show how multicalibration can be viewed as a solution concept for agnostic boosting, shedding new light on past results. Finally, we transfer our insights back to the context of algorithmic fairness by providing omnipredictors for multi-group loss minimization.
翻訳日:2021-09-17 06:58:58 公開日:2021-09-11
# 音楽レコメンデーション, ファクト・チェッキン, スピード・レディングにおける逐次モデリング

Sequential Modelling with Applications to Music Recommendation, Fact-Checking, and Speed Reading ( http://arxiv.org/abs/2109.06736v1 )

ライセンス: Link先を確認
Christian Hansen(参考訳) シーケンシャルモデリングには、さまざまなドメインで自然に発生するシーケンシャルなデータの意味が伴う。 例えば、ユーザと対話し、ユーザのアクションと振る舞いをログし、以前のインタラクションに基づいてユーザに対する潜在的関心事項のレコメンデーションを行うシステムである。 このような場合、ユーザインタラクションの逐次順序は、ユーザが次に何に興味を持っているかを示すことが多い。 同様に、テキストのセマンティクスを自動的に推測するシステムでは、文中の単語のシーケンシャルな順序を取ることが不可欠である。 この論文は、自動ファクトチェッククレームや「高速読解」テキストを効率的に分類するために、リスナーやシステムに楽曲を推薦するシステムの特定の適用領域に対する方法論的貢献とシーケンシャルモデリングの新しい研究を行っている。 (arXivの抽象的制限による抽象的省略の傾向)

Sequential modelling entails making sense of sequential data, which naturally occurs in a wide array of domains. One example is systems that interact with users, log user actions and behaviour, and make recommendations of items of potential interest to users on the basis of their previous interactions. In such cases, the sequential order of user interactions is often indicative of what the user is interested in next. Similarly, for systems that automatically infer the semantics of text, capturing the sequential order of words in a sentence is essential, as even a slight re-ordering could significantly alter its original meaning. This thesis makes methodological contributions and new investigations of sequential modelling for the specific application areas of systems that recommend music tracks to listeners and systems that process text semantics in order to automatically fact-check claims, or "speed read" text for efficient further classification. (Rest of abstract omitted due to arXiv abstract limit)
翻訳日:2021-09-15 15:58:44 公開日:2021-09-11
# ドメインに依存しないマルチソースプリトレーニングによる低リソース対話要約

Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining ( http://arxiv.org/abs/2109.04080v2 )

ライセンス: Link先を確認
Yicheng Zou, Bolin Zhu, Xingwu Hu, Tao Gui, Qi Zhang(参考訳) 日常生活における対話データの量の増加に伴い,対話要約の需要が高まっている。 残念ながら、注釈付き要約による対話データが不十分であるため、大規模な要約モデルのトレーニングは一般的に不可能である。 既存の作品の多くは、ニュースドメインなど他のドメインのモデルを直接事前学習するが、一般的には対話と従来の記事との大きな違いを無視する。 本研究では,ドメイン外の事前学習とドメイン内微調整のギャップを埋めるために,外部要約データをよりよく活用するためのマルチソース事前学習パラダイムを提案する。 具体的には,対話エンコーダとサマリデコーダを分離してプリトレーニングするために,大規模領域内非サマリーデータを利用する。 組み合わせエンコーダ・デコーダモデルは、ドメインに依存しない要約を促進するために、敵の批評家を用いてドメイン外の要約データに基づいて事前訓練される。 2つの公開データセットによる実験結果から,限られたトレーニングデータのみを用いて,本手法は競争性能を達成し,異なる対話シナリオにおいて良好に一般化することを示す。

With the rapid increase in the volume of dialogue data from daily life, there is a growing demand for dialogue summarization. Unfortunately, training a large summarization model is generally infeasible due to the inadequacy of dialogue data with annotated summaries. Most existing works for low-resource dialogue summarization directly pretrain models in other domains, e.g., the news domain, but they generally neglect the huge difference between dialogues and conventional articles. To bridge the gap between out-of-domain pretraining and in-domain fine-tuning, in this work, we propose a multi-source pretraining paradigm to better leverage the external summary data. Specifically, we exploit large-scale in-domain non-summary data to separately pretrain the dialogue encoder and the summary decoder. The combined encoder-decoder model is then pretrained on the out-of-domain summary data using adversarial critics, aiming to facilitate domain-agnostic summarization. The experimental results on two public datasets show that with only limited training data, our approach achieves competitive performance and generalizes well in different dialogue scenarios.
翻訳日:2021-09-14 16:17:43 公開日:2021-09-11
# QUINT:ネットワークハッシュを用いたノード埋め込み

QUINT: Node embedding using network hashing ( http://arxiv.org/abs/2109.04206v2 )

ライセンス: Link先を確認
Debajyoti Bera, Rameshwar Pratap, Bhisham Dev Verma, Biswadeep Sen, and Tanmoy Chakraborty(参考訳) ネットワーク埋め込みを用いた表現学習は,ダウンストリームタスクの解法としての有効性から,大きな注目を集めている。 一般的な埋め込みメソッド(deepwalk、node2vec、lineなど)は、ニューラルネットワークに基づいており、時間と空間の両方で大規模ネットワークにスケールできない。 近年,バイナリベクトルを2進ベクトルに圧縮するスケッチ技術であるBinSketchを提案する。 本稿では,binsketchを拡張し,ネットワークハッシュに利用する方法について述べる。 QUINTという提案はBinSketch上に構築されており、単純な双方向操作を用いてスパースネットワークのノードを低次元空間に埋め込む。 quintは、ダウンストリームタスクの精度を損なうことなく、スピードと空間使用率の面で大きな利益をもたらす、この種の最初の製品である。 2つのエンドタスク - リンク予測とノード分類 - に対して,quintと最先端の7つのネットワーク埋め込み手法を比較するために,広範な実験を行った。 我々はQUINTの高速化(最大7000倍)と省スペース(最大80倍)の点で、ビットワイドな性質でノード埋め込みを実現することによる大きな性能向上を観察する。 さらにQUINTは、すべてのデータセットのベースライン間の両方のタスクに対して、一貫したトップパフォーマンスを提供する。 我々の経験的観察はQUINTの有効性を正当化する厳密な理論的分析によって裏付けられている。 特に、QUINTは、高信頼なネットワークの多くの位相特性を近似するためにさらに使用できる十分な構造情報を保持することを証明している。

Representation learning using network embedding has received tremendous attention due to its efficacy to solve downstream tasks. Popular embedding methods (such as deepwalk, node2vec, LINE) are based on a neural architecture, thus unable to scale on large networks both in terms of time and space usage. Recently, we proposed BinSketch, a sketching technique for compressing binary vectors to binary vectors. In this paper, we show how to extend BinSketch and use it for network hashing. Our proposal named QUINT is built upon BinSketch, and it embeds nodes of a sparse network onto a low-dimensional space using simple bi-wise operations. QUINT is the first of its kind that provides tremendous gain in terms of speed and space usage without compromising much on the accuracy of the downstream tasks. Extensive experiments are conducted to compare QUINT with seven state-of-the-art network embedding methods for two end tasks - link prediction and node classification. We observe huge performance gain for QUINT in terms of speedup (up to 7000x) and space saving (up to 80x) due to its bit-wise nature to obtain node embedding. Moreover, QUINT is a consistent top-performer for both the tasks among the baselines across all the datasets. Our empirical observations are backed by rigorous theoretical analysis to justify the effectiveness of QUINT. In particular, we prove that QUINT retains enough structural information which can be used further to approximate many topological properties of networks with high confidence.
翻訳日:2021-09-14 16:16:54 公開日:2021-09-11
# 因果推論のためのベイズ話題回帰

Bayesian Topic Regression for Causal Inference ( http://arxiv.org/abs/2109.05317v1 )

ライセンス: Link先を確認
Maximilian Ahrens, Julian Ashwin, Jan-Peter Calliess, Vu Nguyen(参考訳) 観測テキストデータを用いた因果推論は、多くの研究領域で人気が高まっている。 本稿では,テキストと数値情報の両方を用いて結果変数をモデル化するベイズトピック回帰(BTR)モデルを提案する。 個々の治療効果と連続的な治療効果の両方を推定できる。 さらに、テキストデータの横に、追加の数値共起因子を組み込むことも可能である。 この目的のために,教師付きベイズ話題モデルとベイズ回帰フレームワークを結合し,フリッシュ・ヴォー・ロヴェールの定理を尊重する回帰パラメータトレーニングと共同でテキスト特徴の教師付き表現学習を行う。 私たちの論文は2つの大きな貢献をした。 まず、テキストと数値の共著者の両方が関連がある場合、設定において因果推論を可能にする回帰フレームワークを提供する。 我々は合成および半合成データセットを用いて,テキストと数値的特徴が関連付けられた場合,いずれのベンチマークモデルよりも低いバイアスで基礎的真理を回復する手法を示す。 第二に、2つの実世界のデータセットの実験では、共同学習戦略と教師付き学習戦略が、テキストと非テキストの特徴の回帰重みを別々に見積もる戦略よりも優れた予測結果をもたらすことを示した。

Causal inference using observational text data is becoming increasingly popular in many research areas. This paper presents the Bayesian Topic Regression (BTR) model that uses both text and numerical information to model an outcome variable. It allows estimation of both discrete and continuous treatment effects. Furthermore, it allows for the inclusion of additional numerical confounding factors next to text data. To this end, we combine a supervised Bayesian topic model with a Bayesian regression framework and perform supervised representation learning for the text features jointly with the regression parameter training, respecting the Frisch-Waugh-Lovell theorem. Our paper makes two main contributions. First, we provide a regression framework that allows causal inference in settings when both text and numerical confounders are of relevance. We show with synthetic and semi-synthetic datasets that our joint approach recovers ground truth with lower bias than any benchmark model, when text and numerical features are correlated. Second, experiments on two real-world datasets demonstrate that a joint and supervised learning strategy also yields superior prediction results compared to strategies that estimate regression weights for text and non-text features separately, being even competitive with more complex deep neural networks.
翻訳日:2021-09-14 16:14:39 公開日:2021-09-11
# co-correcting: 相互ラベル補正によるノイズ耐性医用画像分類

Co-Correcting: Noise-tolerant Medical Image Classification via mutual Label Correction ( http://arxiv.org/abs/2109.05159v1 )

ライセンス: Link先を確認
Jiarun Liu, Ruirui Li, Chuan Sun(参考訳) 深層学習の発展に伴い、医用画像の分類は大幅に改善された。 しかし、ディープラーニングにはラベル付きの大量のデータが必要である。 人間の専門家によるサンプルのラベル付けは高価で時間がかかるが、クラウドソーシングによるラベルの収集には、分類器の精度を損なう可能性のあるノイズが伴う。 そのため,ラベルノイズを効果的に扱えるアプローチが望まれている。 残念ながら、ディープラーニングにおけるラベルノイズ処理の最近の進歩は、医療画像にほとんど気付かれていない。 そこで本稿では,このギャップを埋めるために,2つのネットワーク間相互学習,ラベル確率推定,カリキュラムラベル修正により,分類精度を著しく向上し,より正確なラベルを得るための,ノイズ耐性のある医用画像分類フレームワークco-correctingを提案する。 2つの代表的な医用画像データセットとMNISTデータセットに基づいて、6つの最新のLearning-with-Noisy- Labels法を検証し、比較研究を行った。 実験により, 様々なタスクにおいて, 雑音比の異なる最適精度と一般化を実現することができた。 私たちのプロジェクトは、https://github.com/J iarunLiu/Co-Correcti ng.comで見られます。

With the development of deep learning, medical image classification has been significantly improved. However, deep learning requires massive data with labels. While labeling the samples by human experts is expensive and time-consuming, collecting labels from crowd-sourcing suffers from the noises which may degenerate the accuracy of classifiers. Therefore, approaches that can effectively handle label noises are highly desired. Unfortunately, recent progress on handling label noise in deep learning has gone largely unnoticed by the medical image. To fill the gap, this paper proposes a noise-tolerant medical image classification framework named Co-Correcting, which significantly improves classification accuracy and obtains more accurate labels through dual-network mutual learning, label probability estimation, and curriculum label correcting. On two representative medical image datasets and the MNIST dataset, we test six latest Learning-with-Noisy- Labels methods and conduct comparative studies. The experiments show that Co-Correcting achieves the best accuracy and generalization under different noise ratios in various tasks. Our project can be found at: https://github.com/J iarunLiu/Co-Correcti ng.
翻訳日:2021-09-14 16:14:16 公開日:2021-09-11
# 画素レベルおよび特徴レベル入力による合成地理空間画像の条件生成

Conditional Generation of Synthetic Geospatial Images from Pixel-level and Feature-level Inputs ( http://arxiv.org/abs/2109.05201v1 )

ライセンス: Link先を確認
Xuerong Xiao, Swetava Ganguli, Vipul Pandey(参考訳) コンピュータビジョンの多くの地理空間応用のためのロバストな教師付きディープラーニングモデルのトレーニングは、クラスバランスと多種多様なトレーニングデータの不足のために難しい。 逆に、多くのアプリケーションで十分なトレーニングデータを取得することは金銭的に禁止されるか、特に稀なイベントや極端なイベントをモデル化するアプリケーションでは不可能である。 画像のマルチスケール性を利用した生成モデルを用いてデータ(およびラベル)を合成的に生成することは、ラベル付きデータの不足に対処するための安価なソリューションである。 この目的に向けて,可変オートエンコーダ (vae) と,画素レベル条件 (plc) と巨視的特徴レベル条件 (flc) を同時に条件づけた意味的にリッチな画像を合成する条件情報とを組み合わせた,深い条件付き生成モデルvae-info-cganを提案する。 次元的には、plcは合成画像からチャネル次元だけを変化させることができ、タスク固有の入力となることを意図している。 FLCは生成画像の潜時空間における属性ベクトルとしてモデル化され、ターゲット分布に対する様々な特性特性の寄与を制御する。 GPSトラジェクトリデータセットを用いた実験では,道路網のラスタ表現のみを条件に,異なる地理的位置をまたいだ様々な時空間集合を正確に生成できることが示されている。 VAE-Info-cGANの主な用途は、地理空間分析とリモートセンシングに関連する問題のコンピュータビジョンに基づくモデリングのための、ターゲットデータ拡張のための合成データ(およびラベル)生成である。

Training robust supervised deep learning models for many geospatial applications of computer vision is difficult due to dearth of class-balanced and diverse training data. Conversely, obtaining enough training data for many applications is financially prohibitive or may be infeasible, especially when the application involves modeling rare or extreme events. Synthetically generating data (and labels) using a generative model that can sample from a target distribution and exploit the multi-scale nature of images can be an inexpensive solution to address scarcity of labeled data. Towards this goal, we present a deep conditional generative model, called VAE-Info-cGAN, that combines a Variational Autoencoder (VAE) with a conditional Information Maximizing Generative Adversarial Network (InfoGAN), for synthesizing semantically rich images simultaneously conditioned on a pixel-level condition (PLC) and a macroscopic feature-level condition (FLC). Dimensionally, the PLC can only vary in the channel dimension from the synthesized image and is meant to be a task-specific input. The FLC is modeled as an attribute vector in the latent space of the generated image which controls the contributions of various characteristic attributes germane to the target distribution. Experiments on a GPS trajectories dataset show that the proposed model can accurately generate various forms of spatiotemporal aggregates across different geographic locations while conditioned only on a raster representation of the road network. The primary intended application of the VAE-Info-cGAN is synthetic data (and label) generation for targeted data augmentation for computer vision-based modeling of problems relevant to geospatial analysis and remote sensing.
翻訳日:2021-09-14 16:13:33 公開日:2021-09-11
# TopicRefine:マルチターンエンドツーエンド対話システムのための共同トピック予測と対話応答生成

TopicRefine: Joint Topic Prediction and Dialogue Response Generation for Multi-turn End-to-End Dialogue System ( http://arxiv.org/abs/2109.05187v1 )

ライセンス: Link先を確認
Hongru Wang, Mingyu Cui, Zimo Zhou, Gabriel Pui Cheong Fung, Kam-Fai Wong(参考訳) マルチターン対話は、常に特定のトピックスレッドに従っており、会話が進行するにつれて、談話レベルでのトピックシフトは自然に起こる。 これまでの研究では、トピックを最初に予測し、関連する応答を生成したり、トピックの予測と応答生成モデルの連関分布を無視して、すべてのトピックに注意機構を適用したり、制御不能で無関係な応答をもたらしたりしてきた。 本稿では,これら2つのタスクを同時に学習するためのトピックリファインメント機構を備えた共同フレームワークを提案する。 具体的には,まず粗い応答を生成し,次いで対応するトピックを予測し,最終的に予測されたトピックを条件とした洗練された応答を生成する3パス反復機構を設計する。 さらに,GPT2DoubleHeadsとBERTをそれぞれトピック予測タスクに利用し,共同学習の効果とGPTモデルの理解能力について検討する。 実験結果から,提案フレームワークは応答生成タスクにおける新しい最先端性能とGPTモデルの潜在能力を実現することが示された。

A multi-turn dialogue always follows a specific topic thread, and topic shift at the discourse level occurs naturally as the conversation progresses, necessitating the model's ability to capture different topics and generate topic-aware responses. Previous research has either predicted the topic first and then generated the relevant response, or simply applied the attention mechanism to all topics, ignoring the joint distribution of the topic prediction and response generation models and resulting in uncontrollable and unrelated responses. In this paper, we propose a joint framework with a topic refinement mechanism to learn these two tasks simultaneously. Specifically, we design a three-pass iteration mechanism to generate coarse response first, then predict corresponding topics, and finally generate refined response conditioned on predicted topics. Moreover, we utilize GPT2DoubleHeads and BERT for the topic prediction task respectively, aiming to investigate the effects of joint learning and the understanding ability of GPT model. Experimental results demonstrate that our proposed framework achieves new state-of-the-art performance at response generation task and the great potential understanding capability of GPT model.
翻訳日:2021-09-14 16:11:14 公開日:2021-09-11
# 変圧器を用いたチットチャットシステムの訓練戦略に関する実証分析

Empirical Analysis of Training Strategies of Transformer-based Japanese Chit-chat Systems ( http://arxiv.org/abs/2109.05217v1 )

ライセンス: Link先を確認
Hiroaki Sugiyama, Masahiro Mizukami, Tsunehiro Arimoto, Hiromi Narimatsu, Yuya Chiba, Hideharu Nakajima, Toyomi Meguro(参考訳) 近年,Transformerエンコーダ-デコーダモデルに基づく高性能な対話システムが提案されている。 過去の研究では,モデルパラメータと復号法が主観的対話評価に与える影響を総合評価で分析したが,微調整データセットの違いがユーザの詳細な印象に与える影響は分析されなかった。 さらに、トランスフォーマーベースのアプローチは、日本語のように言語間距離が大きい言語に対してではなく、英語でのみ検証されている。 本研究では,大規模なトランスフォーマーに基づく日本語対話モデルと日本語のチトチャットデータセットを開発し,チトチャット対話システム構築におけるトランスフォーマーベースのアプローチの有効性を検討する。 異なる微調整データセット,モデルパラメータ,追加情報の利用において,人間の対話の印象を評価し分析した。

In recent years, several high-performance conversational systems have been proposed based on the Transformer encoder-decoder model. Although previous studies analyzed the effects of the model parameters and the decoding method on subjective dialogue evaluations with overall metrics, they did not analyze how the differences of fine-tuning datasets affect on user's detailed impression. In addition, the Transformer-based approach has only been verified for English, not for such languages with large inter-language distances as Japanese. In this study, we develop large-scale Transformer-based Japanese dialogue models and Japanese chit-chat datasets to examine the effectiveness of the Transformer-based approach for building chit-chat dialogue systems. We evaluated and analyzed the impressions of human dialogues in different fine-tuning datasets, model parameters, and the use of additional information.
翻訳日:2021-09-14 16:10:55 公開日:2021-09-11
# AdaK-NER:不完全アノテーションを用いた名前付きエンティティ認識のための適応的トップKアプローチ

AdaK-NER: An Adaptive Top-K Approach for Named Entity Recognition with Incomplete Annotations ( http://arxiv.org/abs/2109.05233v1 )

ライセンス: Link先を確認
Hongtao Ruan, Liying Zheng, Peixian Hu, Liang Xu, Jing Xiao(参考訳) 最新の名前付きエンティティ認識(ner)モデルは、大量のアノテートされたトレーニングデータに大きく依存しています。 しかし、アノテータは通常、対象領域における理解的な知識を欠いているため、ac-cessibleデータはしばしば不完全にアノテートされる。 通常、アノテーションのないトークンはデフォルトでは非エンティティとみなされるが、私たちはこれらのトークンは任意のエンティティの非エンティティか部分である可能性があることを強調する。 ここでは,名前付きエンティティのごく一部だけがラベリングされ,ラベル付きトークンが任意のラベルで均等にマルチラベル化されている不完全アノテートデータを用いたNERモデレートについて検討し,複数ラベル付きトークンを考慮に入れれば,鉄道模型をゴールドパス(地上の真実ラベルシーケンス)から逸脱させ,学習能力を阻害することができる。 本稿では,適応型トップカプロッハと呼ばれるadak-nerを提案する。 本研究では,CoNLL-2003におけるFスコアの2%を平均的に改善し,従来の最先端技術と比較した2つの中国語データセットに対して10%以上を達成した。

State-of-the-art Named Entity Recognition(NER) models rely heavily on large amountsof fully annotated training data. However, ac-cessible data are often incompletely annotatedsince the annotators usually lack comprehen-sive knowledge in the target domain. Normallythe unannotated tokens are regarded as non-entities by default, while we underline thatthese tokens could either be non-entities orpart of any entity. Here, we study NER mod-eling with incomplete annotated data whereonly a fraction of the named entities are la-beled, and the unlabeled tokens are equiva-lently multi-labeled by every possible label.Taking multi-labeled tokens into account, thenumerous possible paths can distract the train-ing model from the gold path (ground truthlabel sequence), and thus hinders the learn-ing ability. In this paper, we propose AdaK-NER, named the adaptive top-Kapproach, tohelp the model focus on a smaller feasible re-gion where the gold path is more likely to belocated. We demonstrate the superiority ofour approach through extensive experimentson both English and Chinese datasets, aver-agely improving 2% in F-score on the CoNLL-2003 and over 10% on two Chinese datasetscompared with the prior state-of-the-art works.
翻訳日:2021-09-14 16:10:41 公開日:2021-09-11
# 費用対効果のあるマイノショット学習のための異種ソースドメインの事前欠落

Prior Omission of Dissimilar Source Domain(s) for Cost-Effective Few-Shot Learning ( http://arxiv.org/abs/2109.05234v1 )

ライセンス: Link先を確認
Zezhong Wang, Hongru Wang, Kwan Wai Chung, Jia Zhu, Gabriel Pui Cheong Fung, Kam-Fai Wong(参考訳) スロットタギングは自然言語理解(NLU)分野における新たな研究課題である。 ソースドメインからの十分なアノテートされたデータによって、重要な課題は、モデルをラベルがほとんどない別のターゲットドメインにトレーニングし、適応する方法である。 従来の少数ショットアプローチでは、ソースドメインからのすべてのデータをドメイン間の関係を考慮せずに使用し、ドメイン内の各サンプルが均等に寄与することを暗黙的に想定する。 しかし,本実験では,異なる領域間でのデータ分散バイアスが適応性能に大きく影響することを示した。 さらに、異なるドメインから知識を移すと、モデルのパフォーマンスに影響を与える追加のノイズが発生する。 そこで本研究では,ソース領域からデータを選択する効果的な類似性に基づく手法を提案する。 さらに,数ショットのスロットタギングタスクに対して,SP-Net(Shared-Priva te Network)を提案する。 同じクラスの単語には、いくつかの共有機能がある。 ターゲットドメインの限定されたアノテートデータからこれらの共有機能を抽出し、ラベル埋め込みとしてマージすることで、ターゲットドメインの他のラベルなしデータを予測できるようにする。 実験の結果,本手法は少ないソースデータで最先端のアプローチに勝ることがわかった。 その結果、異なるソースからのトレーニングデータの一部が冗長で、適応にマイナスであることも証明された。

Few-shot slot tagging is an emerging research topic in the field of Natural Language Understanding (NLU). With sufficient annotated data from source domains, the key challenge is how to train and adapt the model to another target domain which only has few labels. Conventional few-shot approaches use all the data from the source domains without considering inter-domain relations and implicitly assume each sample in the domain contributes equally. However, our experiments show that the data distribution bias among different domains will significantly affect the adaption performance. Moreover, transferring knowledge from dissimilar domains will even introduce some extra noises so that affect the performance of models. To tackle this problem, we propose an effective similarity-based method to select data from the source domains. In addition, we propose a Shared-Private Network (SP-Net) for the few-shot slot tagging task. The words from the same class would have some shared features. We extract those shared features from the limited annotated data on the target domain and merge them together as the label embedding to help us predict other unlabelled data on the target domain. The experiment shows that our method outperforms the state-of-the-art approaches with fewer source data. The result also proves that some training data from dissimilar sources are redundant and even negative for the adaption.
翻訳日:2021-09-14 16:10:18 公開日:2021-09-11
# 説明可能なaiのための客観的指標:説明可能性の程度を見積もる方法と理由

An Objective Metric for Explainable AI: How and Why to Estimate the Degree of Explainability ( http://arxiv.org/abs/2109.05327v1 )

ライセンス: Link先を確認
Francesco Sovrano, Fabio Vitali(参考訳) 多くの政府のイニシアチブ(例えばGDPRとEU)は、現代のソフトウェアシステムの複雑さの増大は、これらのツールのインパクトアセスメントのための説明とメトリクスに対するいくつかの権利と対比されなければならないという結論に達している。 説明可能なAIは、人間が複雑なシステムの内部動作を探索し理解するための経路として生まれた。 しかし、説明可能性の確立と客観的な評価は、簡単な作業ではありません。 本稿では,Achinstein's Theory of Explanations(アチンシュタインの説明理論)と呼ばれる正規言語哲学の特定のモデルを利用して,正しい情報のeX説明可能性の度合いを客観的に測定する。 このメトリクスが実際に説明可能性として振る舞うかどうかを理解するために、私たちは、医療と金融のための2つの現実的なAIベースのシステムに関するいくつかの実験とユーザースタディを設計しました。 その結果,eXplainabilityの測定基準はいくつかのシナリオにおいて堅牢であり,最終的には自動意思決定システムに対する合法的な影響評価に活用できる可能性が示唆された。

Numerous government initiatives (e.g. the EU with GDPR) are coming to the conclusion that the increasing complexity of modern software systems must be contrasted with some Rights to Explanation and metrics for the Impact Assessment of these tools, that allow humans to understand and oversee the output of Automated Decision Making systems. Explainable AI was born as a pathway to allow humans to explore and understand the inner working of complex systems. But establishing what is an explanation and objectively evaluating explainability, are not trivial tasks. With this paper, we present a new model-agnostic metric to measure the Degree of eXplainability of correct information in an objective way, exploiting a specific model from Ordinary Language Philosophy called the Achinstein's Theory of Explanations. In order to understand whether this metric is actually behaving as explainability is expected to, we designed a few experiments and a user-study on two realistic AI-based systems for healthcare and finance, involving famous AI technology including Artificial Neural Networks and TreeSHAP. The results we obtained are very encouraging, suggesting that our proposed metric for measuring the Degree of eXplainability is robust on several scenarios and it can be eventually exploited for a lawful Impact Assessment of an Automated Decision Making system.
翻訳日:2021-09-14 16:09:55 公開日:2021-09-11
# space meets time: トラヒックフロー予測のためのローカル時空ニューラルネットワーク

Space Meets Time: Local Spacetime Neural Network For Traffic Flow Forecasting ( http://arxiv.org/abs/2109.05225v1 )

ライセンス: Link先を確認
Song Yang, Jiamou Liu, Kaiqi Zhao(参考訳) 交通流予測は都市コンピューティングにおいて重要な課題である。 この課題は、交通データの空間的パターンと時間的パターンを別々に抽出することで識別できない固有時空間相関と潜時時空間相関がしばしば現れるためである。 このような相関関係は普遍的であり、交通流において重要な役割を果たす。 我々は,空間的特徴と時間的特徴の統一分析を通じて,これらの相関を明示的に捉えるためのパラダイムとして時空区間学習を展開する。 特定の道路ネットワークに制限された最先端の手法とは異なり、都市から都市へ移行可能な普遍的な時空間相関をモデル化する。 そこで本研究では,近接時間内に近接する近傍のデータを含むトラヒックセンサの局所時空間コンテキストを構築する,新しい時空間隔学習フレームワークを提案する。 この考え方に基づいて、時空間畳み込みとアテンション機構を用いて時空間相関を学習する時空間ニューラルネットワーク(STNN)を導入する。 提案するSTNNは,特定のネットワーク構造に依存しないローカルトラフィックパターンをキャプチャする。 その結果、トレーニングされたSTNNモデルを任意の未確認トラフィックネットワークに適用することができる。 提案する2つのリアルタイムトラヒックデータセットと動的ネットワーク上のシミュレーションデータセットのstnnを評価する。 実験の結果,stnnは最先端手法よりも予測精度を15%向上させるだけでなく,トラフィックネットワークが動的変化を行う場合や,優れた一般化能力を有する場合にも有効であることがわかった。

Traffic flow forecasting is a crucial task in urban computing. The challenge arises as traffic flows often exhibit intrinsic and latent spatio-temporal correlations that cannot be identified by extracting the spatial and temporal patterns of traffic data separately. We argue that such correlations are universal and play a pivotal role in traffic flow. We put forward spacetime interval learning as a paradigm to explicitly capture these correlations through a unified analysis of both spatial and temporal features. Unlike the state-of-the-art methods, which are restricted to a particular road network, we model the universal spatio-temporal correlations that are transferable from cities to cities. To this end, we propose a new spacetime interval learning framework that constructs a local-spacetime context of a traffic sensor comprising the data from its neighbors within close time points. Based on this idea, we introduce spacetime neural network (STNN), which employs novel spacetime convolution and attention mechanism to learn the universal spatio-temporal correlations. The proposed STNN captures local traffic patterns, which does not depend on a specific network structure. As a result, a trained STNN model can be applied on any unseen traffic networks. We evaluate the proposed STNN on two public real-world traffic datasets and a simulated dataset on dynamic networks. The experiment results show that STNN not only improves prediction accuracy by 15% over state-of-the-art methods, but is also effective in handling the case when the traffic network undergoes dynamic changes as well as the superior generalization capability.
翻訳日:2021-09-14 16:02:31 公開日:2021-09-11
# DeepPyram:白内障手術ビデオにおけるセマンティックセグメンテーションのためのピラミッドビューと変形可能なピラミッドレセプション

DeepPyram: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos ( http://arxiv.org/abs/2109.05352v1 )

ライセンス: Link先を確認
Negin Ghamsarian, Mario Taschwer, and klaus Schoeffmann(参考訳) 白内障手術におけるセマンティクスセグメンテーションは、手術結果の増大と臨床リスク低減に寄与する幅広い応用がある。 しかし、異なる関連するインスタンスを分割する際の様々な問題により、ユニークなネットワークの指定は非常に困難である。 本稿では,白内障手術ビデオにおける関連オブジェクトのセグメンテーションにおいて,より優れた性能を達成できる,DeepPyramと呼ばれるセグメンテーションネットワークを提案する。 この優越性は、主に3つのモジュールに由来する。 (i)ピラミッドビュー融合は、入力畳み込み特徴マップにおいて、各画素位置を中心とする周辺領域の変動角大域的ビューを提供する。 (ii)変形可能なピラミッド受信装置であって、対象物の幾何学的変換に適応可能な広い変形可能な受容体を可能にするもの (iii)マルチスケールな意味的特徴マップを適応的に監督するピラミッドロス。 これらのモジュールは、特に透過性、変形性、スケーラビリティ、オブジェクトの鈍的エッジの場合、セマンティックセグメンテーションのパフォーマンスを効果的に向上させることができる。 提案手法は,異なる特徴を持つ物体に対する白内障手術の4つのデータセットを用いて評価し,13の最先端セグメンテーションネットワークと比較した。 実験の結果、DeepPyramはトレーニング可能なパラメータを追加することなくライバルのアプローチより優れていることが確認された。 包括的アブレーション研究により,提案モジュールの有効性がさらに証明された。

Semantic segmentation in cataract surgery has a wide range of applications contributing to surgical outcome enhancement and clinical risk reduction. However, the varying issues in segmenting the different relevant instances make the designation of a unique network quite challenging. This paper proposes a semantic segmentation network termed as DeepPyram that can achieve superior performance in segmenting relevant objects in cataract surgery videos with varying issues. This superiority mainly originates from three modules: (i) Pyramid View Fusion, which provides a varying-angle global view of the surrounding region centering at each pixel position in the input convolutional feature map; (ii) Deformable Pyramid Reception, which enables a wide deformable receptive field that can adapt to geometric transformations in the object of interest; and (iii) Pyramid Loss that adaptively supervises multi-scale semantic feature maps. These modules can effectively boost semantic segmentation performance, especially in the case of transparency, deformability, scalability, and blunt edges in objects. The proposed approach is evaluated using four datasets of cataract surgery for objects with different contextual features and compared with thirteen state-of-the-art segmentation networks. The experimental results confirm that DeepPyram outperforms the rival approaches without imposing additional trainable parameters. Our comprehensive ablation study further proves the effectiveness of the proposed modules.
翻訳日:2021-09-14 16:00:38 公開日:2021-09-11
# 時系列異常検出の厳密な評価に向けて

Towards a Rigorous Evaluation of Time-series Anomaly Detection ( http://arxiv.org/abs/2109.05257v1 )

ライセンス: Link先を確認
Siwon Kim, Kukjin Choi, Hyun-Soo Choi, Byunghan Lee, and Sungroh Yoon(参考訳) 近年、時系列異常検出(TAD)に関する研究が、ベンチマークTADデータセットに高いF1スコアを報告し、明確な改善の印象を与えている。 しかし、ほとんどの研究は点調整(PA)と呼ばれる特異な評価プロトコルを適用している。 本稿では,PAプロトコルが検出性能を過大評価する可能性が大きいことを理論的,実験的に明らかにする。 したがって、PAプロトコル以降のTAD法とF1スコアとの比較は、誤ったランク付けにつながる可能性がある。 さらに,未学習モデルがpaなしでも既存の手法に匹敵する検出性能が得られることを示すことにより,既存のtad手法の可能性に疑問を呈する。 そこで本研究では,新たなベースラインと評価プロトコルを提案する。 我々は,本研究がTADの厳格な評価に役立ち,今後の研究のさらなる改善につながることを期待する。

In recent years, proposed studies on time-series anomaly detection (TAD) report high F1 scores on benchmark TAD datasets, giving the impression of clear improvements. However, most studies apply a peculiar evaluation protocol called point adjustment (PA) before scoring. In this paper, we theoretically and experimentally reveal that the PA protocol has a great possibility of overestimating the detection performance; that is, even a random anomaly score can easily turn into a state-of-the-art TAD method. Therefore, the comparison of TAD methods with F1 scores after the PA protocol can lead to misguided rankings. Furthermore, we question the potential of existing TAD methods by showing that an untrained model obtains comparable detection performance to the existing methods even without PA. Based on our findings, we propose a new baseline and an evaluation protocol. We expect that our study will help a rigorous evaluation of TAD and lead to further improvement in future researches.
翻訳日:2021-09-14 15:58:31 公開日:2021-09-11
# 連合学習における初期行動モニタリング問題について

On the Initial Behavior Monitoring Issues in Federated Learning ( http://arxiv.org/abs/2109.05385v1 )

ライセンス: Link先を確認
Ranwa Al Mallah, Godwin Badu-Marfo, Bilal Farooq(参考訳) フェデレーション学習(fl)では、労働者のグループは、チーフである1つのノードの調整の下でグローバルモデルを構築するために参加します。 FLのサイバーセキュリティに関して、一部の攻撃は、製造されたローカルモデルの更新をシステムに注入することを目的としている。 いくつかの防御は、悪意のあるワーカー検出と行動パターン分析に基づいている。 この文脈では、タイムリーでダイナミックな監視方法がないと、チーフはシステムから悪意のある、または信頼性の低いワーカーを検出し、削除できない。 我々の研究は、モニタリングと最終的には行動パターン分析のための連合学習プロセスの準備に緊急性を強調している。 学習の初期段階における学習プロセス内の情報を調査し,モニタリングプロセスを提案し,必要なモニタリング期間を評価する。 システムから悪意ある作業者や信頼性の低い作業者を取り除き,防御機構の配置を最適化するために,検出アルゴリズムの起動時期を解析することが目的である。 我々は,テキストと画像の分類のための異なるベンチマークシステムのflプロセスに適用した行動パターン解析の防御について本戦略を検証した。 以上の結果から,偽陽性と偽陰性を低減し,トレーニング初期における分散学習システムの性能向上を可能にすることにより,システム効率が向上することが示唆された。

In Federated Learning (FL), a group of workers participate to build a global model under the coordination of one node, the chief. Regarding the cybersecurity of FL, some attacks aim at injecting the fabricated local model updates into the system. Some defenses are based on malicious worker detection and behavioral pattern analysis. In this context, without timely and dynamic monitoring methods, the chief cannot detect and remove the malicious or unreliable workers from the system. Our work emphasize the urgency to prepare the federated learning process for monitoring and eventually behavioral pattern analysis. We study the information inside the learning process in the early stages of training, propose a monitoring process and evaluate the monitoring period required. The aim is to analyse at what time is it appropriate to start the detection algorithm in order to remove the malicious or unreliable workers from the system and optimise the defense mechanism deployment. We tested our strategy on a behavioral pattern analysis defense applied to the FL process of different benchmark systems for text and image classification. Our results show that the monitoring process lowers false positives and false negatives and consequently increases system efficiency by enabling the distributed learning system to achieve better performance in the early stage of training.
翻訳日:2021-09-14 15:58:18 公開日:2021-09-11
# RVMDE: ロボットのためのレーダー検証単眼深度推定

RVMDE: Radar Validated Monocular Depth Estimation for Robotics ( http://arxiv.org/abs/2109.05265v1 )

ライセンス: Link先を確認
Muhamamd Ishfaq Hussain, Muhammad Aasim Rafique and Moongu Jeon(参考訳) 立体視はシーン内の距離の自然な知覚を露呈し、3次元の世界理解におけるその現れは直感的な現象である。 しかし,両眼視センサの厳密な校正は,正確な深度推定には不可欠である。 あるいは、単眼カメラは、深度推定の精度を犠牲にして制限を緩和し、厳しい環境条件下では課題が悪化する。 さらに、光学センサーは厳しい環境で重要な信号を得ることができず、代わりにレーダーが使用され、粗いがより正確な信号が得られる。 本研究は, 環境条件下での深度推定のために, 単眼カメラの細粒度データと融合した場合のレーダーからの粗い信号の有用性について検討する。 特徴ピラミッドネットワーク(FPN)の変種は、パラメータの少ない複数のスケールで、きめ細かい画像の特徴を広範囲に操作する。 FPN特徴マップは、畳み込みニューラルネットワークで抽出されたスパースレーダー特徴と融合する。 連結階層的特徴は、順序回帰による深さの予測に使用される。 我々はnuScenesデータセットの実験を行い、提案アーキテクチャはパラメータの削減と推論の高速化による定量的評価において最上位にとどまった。 その結果,提案手法は,ロボットや自動運転車におけるステレオ深度推定の代替として使用できることが示唆された。 ソースコードは次のようになる。 \url{https://github.com/M I-Hussain/RVMDE}。

Stereoscopy exposits a natural perception of distance in a scene, and its manifestation in 3D world understanding is an intuitive phenomenon. However, an innate rigid calibration of binocular vision sensors is crucial for accurate depth estimation. Alternatively, a monocular camera alleviates the limitation at the expense of accuracy in estimating depth, and the challenge exacerbates in harsh environmental conditions. Moreover, an optical sensor often fails to acquire vital signals in harsh environments, and radar is used instead, which gives coarse but more accurate signals. This work explores the utility of coarse signals from radar when fused with fine-grained data from a monocular camera for depth estimation in harsh environmental conditions. A variant of feature pyramid network (FPN) extensively operates on fine-grained image features at multiple scales with a fewer number of parameters. FPN feature maps are fused with sparse radar features extracted with a Convolutional neural network. The concatenated hierarchical features are used to predict the depth with ordinal regression. We performed experiments on the nuScenes dataset, and the proposed architecture stays on top in quantitative evaluations with reduced parameters and faster inference. The depth estimation results suggest that the proposed techniques can be used as an alternative to stereo depth estimation in critical applications in robotics and self-driving cars. The source code will be available in the following: \url{https://github.com/M I-Hussain/RVMDE}.
翻訳日:2021-09-14 15:55:37 公開日:2021-09-11
# Natural SQL: 自然言語仕様からの推論を容易にするSQL

Natural SQL: Making SQL Easier to Infer from Natural Language Specifications ( http://arxiv.org/abs/2109.05153v1 )

ライセンス: Link先を確認
Yujian Gan and Xinyun Chen and Jinxia Xie and Matthew Purver and John R. Woodward and John Drake and Qiaofu Zhang(参考訳) 自然言語記述と対応するSQLクエリのミスマッチに対処することは、テキストからSQLへの変換において重要な課題である。 このギャップを埋めるために、Natural SQL(NatSQL)と呼ばれるSQL中間表現(IR)を提案する。 具体的には、natsqlはsqlの中核的な機能を維持しながら、クエリを単純化している。 1) テキスト記述で対応するものを見つけるのが難しいgroup by、from、joinといった演算子やキーワードを不要にする、2) ネストしたサブクエリとセット演算子を不要にする、3) 必要なスキーマ項目の数を減らすことでスキーマリンクを容易にする。 複雑でネストしたSQLクエリを含む挑戦的なテキスト-SQLベンチマークであるSpiderでは、NatSQLが他のIRより優れており、いくつかのSOTAモデルの性能が大幅に向上していることを示す。 さらに、実行可能SQL生成をサポートしない既存のモデルでは、NatSQLは実行可能SQLクエリを容易に生成することができ、新しい最先端実行精度を実現する。

Addressing the mismatch between natural language descriptions and the corresponding SQL queries is a key challenge for text-to-SQL translation. To bridge this gap, we propose an SQL intermediate representation (IR) called Natural SQL (NatSQL). Specifically, NatSQL preserves the core functionalities of SQL, while it simplifies the queries as follows: (1) dispensing with operators and keywords such as GROUP BY, HAVING, FROM, JOIN ON, which are usually hard to find counterparts for in the text descriptions; (2) removing the need for nested subqueries and set operators; and (3) making schema linking easier by reducing the required number of schema items. On Spider, a challenging text-to-SQL benchmark that contains complex and nested SQL queries, we demonstrate that NatSQL outperforms other IRs, and significantly improves the performance of several previous SOTA models. Furthermore, for existing models that do not support executable SQL generation, NatSQL easily enables them to generate executable SQL queries, and achieves the new state-of-the-art execution accuracy.
翻訳日:2021-09-14 15:51:54 公開日:2021-09-11
# クロスドメインテキスト-SQL一般化の探索的限界を探る

Exploring Underexplored Limitations of Cross-Domain Text-to-SQL Generalization ( http://arxiv.org/abs/2109.05157v1 )

ライセンス: Link先を確認
Yujian Gan, Xinyun Chen, Matthew Purver(参考訳) 近年、ゼロショットクロスドメイン設定の下で、テキスト記述をSQLクエリに変換するニューラルネットワークの研究が大幅に進展している。 いくつかの公開ベンチマークで優れたパフォーマンスを達成しているにもかかわらず、トレーニングデータに頻繁に現れないドメイン知識に直面すると、既存のテキスト-SQLモデルが一般化しないことが観察される。 本研究では,テキストからSQLへのモデルの堅牢性について検討する。 特に,5種類のドメイン知識を定義し,テキストからSQLへの翻訳のためのSpiderベンチマークに基づく人間計算データセットであるSpider-DK(DKはドメイン知識の略)を導入する。 スパイダーDKのNL質問はスパイダーから選択され、実世界の質問パラフレーズを反映したドメイン知識を追加することでいくつかのサンプルを変更する。 学習セットにドメイン知識が出現しても,そのようなドメイン知識を必要とするサンプルに対して,予測精度が劇的に低下することを示し,関連するトレーニングサンプルに対する正確な予測を提供する。

Recently, there has been significant progress in studying neural networks for translating text descriptions into SQL queries under the zero-shot cross-domain setting. Despite achieving good performance on some public benchmarks, we observe that existing text-to-SQL models do not generalize when facing domain knowledge that does not frequently appear in the training data, which may render the worse prediction performance for unseen domains. In this work, we investigate the robustness of text-to-SQL models when the questions require rarely observed domain knowledge. In particular, we define five types of domain knowledge and introduce Spider-DK (DK is the abbreviation of domain knowledge), a human-curated dataset based on the Spider benchmark for text-to-SQL translation. NL questions in Spider-DK are selected from Spider, and we modify some samples by adding domain knowledge that reflects real-world question paraphrases. We demonstrate that the prediction accuracy dramatically drops on samples that require such domain knowledge, even if the domain knowledge appears in the training set, and the model provides the correct predictions for related training samples.
翻訳日:2021-09-14 15:51:31 公開日:2021-09-11
# streamhover: ライブストリームの書き起こし要約とアノテーション

StreamHover: Livestream Transcript Summarization and Annotation ( http://arxiv.org/abs/2109.05160v1 )

ライセンス: Link先を確認
Sangwoo Cho and Franck Dernoncourt and Tim Ganter and Trung Bui and Nedim Lipka and Walter Chang and Hailin Jin and Jonathan Brandt and Hassan Foroosh and Fei Liu(参考訳) ライブストリーム放送の爆発的な成長に伴い、ストリーミングコンテンツのプレビューを作成し、この豊富な知識を活用できる新しい要約技術が緊急に必要となる。 しかし、音声言語の非公式な性質のため、この問題は自明ではない。 さらに、書き起こし要約に必要な注釈付きデータセットが不足している。 本稿では,ライブストリームの書き起こしを注釈・要約するフレームワークstreamhoverを提案する。 合計500時間以上のビデオに抽出的要約と抽象的要約を併用したベンチマークデータセットは,既存の注釈付きコーパスよりもはるかに大きい。 ベクトル量子化変分オートエンコーダを用いて音声発話の潜時ベクトル表現を学習し、転写文から有意な発話を識別して要約を生成するニューラルネットワーク抽出要約モデルについて検討する。 我々のモデルはより一般化され、強力なベースラインよりも性能が向上することを示す。 本研究の結果は,ライブストリームの効率的なブラウジングのための要約ソリューションの改善に向けた今後の研究の道筋を提供する。

With the explosive growth of livestream broadcasting, there is an urgent need for new summarization technology that enables us to create a preview of streamed content and tap into this wealth of knowledge. However, the problem is nontrivial due to the informal nature of spoken language. Further, there has been a shortage of annotated datasets that are necessary for transcript summarization. In this paper, we present StreamHover, a framework for annotating and summarizing livestream transcripts. With a total of over 500 hours of videos annotated with both extractive and abstractive summaries, our benchmark dataset is significantly larger than currently existing annotated corpora. We explore a neural extractive summarization model that leverages vector-quantized variational autoencoder to learn latent vector representations of spoken utterances and identify salient utterances from the transcripts to form summaries. We show that our model generalizes better and improves performance over strong baselines. The results of this study provide an avenue for future research to improve summarization solutions for efficient browsing of livestreams.
翻訳日:2021-09-14 15:51:13 公開日:2021-09-11
# 常識質問に対する社会的知識のセマンティック分類

Semantic Categorization of Social Knowledge for Commonsense Question Answering ( http://arxiv.org/abs/2109.05168v1 )

ライセンス: Link先を確認
Gengyu Wang, Xiaochen Hou, Diyi Yang, Kathleen McKeown, Jing Huang(参考訳) 大規模事前学習型言語モデル(PLM)は、様々な共通知識質問応答(QA)タスクをエンドツーエンドで実現している。 しかし、これらのQAタスクを深く特徴付けるのに必要なコモンセンス知識にはほとんど注意が払われていない。 本研究では、SocialIQAを例として、これらのタスクに必要な意味を分類することを提案した。 ラベル付き社会知識カテゴリデータセットをSocialIQA上に構築し,そのような社会知識カテゴリと知識ベースからの関係情報を組み込むために,神経質QAモデルをさらに訓練する。 従来の研究と異なり、社会知識を意味的に分類したモデルは、他の複雑なアプローチに比べて比較的単純なモデルと小さいサイズで同等のパフォーマンスを達成できます。

Large pre-trained language models (PLMs) have led to great success on various commonsense question answering (QA) tasks in an end-to-end fashion. However, little attention has been paid to what commonsense knowledge is needed to deeply characterize these QA tasks. In this work, we proposed to categorize the semantics needed for these tasks using the SocialIQA as an example. Building upon our labeled social knowledge categories dataset on top of SocialIQA, we further train neural QA models to incorporate such social knowledge categories and relation information from a knowledge base. Unlike previous work, we observe our models with semantic categorizations of social knowledge can achieve comparable performance with a relatively simple model and smaller size compared to other complex approaches.
翻訳日:2021-09-14 15:50:58 公開日:2021-09-11
# マルチタスクマルチモーダルニューラルフュージョンを用いた教育用データベースからの大学生の保持リスク分析

College Student Retention Risk Analysis From Educational Database using Multi-Task Multi-Modal Neural Fusion ( http://arxiv.org/abs/2109.05178v1 )

ライセンス: Link先を確認
Mohammad Arif Ul Alam(参考訳) 我々は,マルチタスク学習(msnf-mtcl)のためのマルチモーダル時空間ニューラルフュージョンネットワークを開発し,将来のドロップアウト,次学期ドロップアウト,ドロップアウトの種類,ドロップアウトの持続時間,ドロップアウトの原因という5つの重要な学生の保持リスクを予測する。 まず,空間的および時間的非構造的助言ノートを時空間的構造化データと融合することにより,学生の学術情報表現を学習するための汎用マルチモーダルニューラルフュージョンネットワークモデルmsnfを開発した。 msnfは、トランスフォーマー(bert)ベースの文書埋め込みフレームワークからの双方向エンコーダ表現を組み合わせることで、各助言メモ、長期短期記憶(lstm)ネットワーク、時間助言メモ埋め込みのモデル化、lstmネットワーク、学生の時間的パフォーマンス変数と学生の静的人口動態をモデル化する。 MSNFからの最後の融合表現は、MSNF-MTCLを構築するためのマルチタスクカスケード学習(MTCL)モデルで活用されている。 我々は18年間に36,445人の大学生からなる大規模な教育データベース上でMSNFMTCLを評価し、最先端の最先端モデルと比較して有望なパフォーマンスを提供する。 さらに、バイアスの存在から、そのようなモデルの公平性をテストする。

We develop a Multimodal Spatiotemporal Neural Fusion network for Multi-Task Learning (MSNF-MTCL) to predict 5 important students' retention risks: future dropout, next semester dropout, type of dropout, duration of dropout and cause of dropout. First, we develop a general purpose multi-modal neural fusion network model MSNF for learning students' academic information representation by fusing spatial and temporal unstructured advising notes with spatiotemporal structured data. MSNF combines a Bidirectional Encoder Representations from Transformers (BERT)-based document embedding framework to represent each advising note, Long-Short Term Memory (LSTM) network to model temporal advising note embeddings, LSTM network to model students' temporal performance variables and students' static demographics altogether. The final fused representation from MSNF has been utilized on a Multi-Task Cascade Learning (MTCL) model towards building MSNF-MTCL for predicting 5 student retention risks. We evaluate MSNFMTCL on a large educational database consists of 36,445 college students over 18 years period of time that provides promising performances comparing with the nearest state-of-art models. Additionally, we test the fairness of such model given the existence of biases.
翻訳日:2021-09-14 15:50:45 公開日:2021-09-11
# 対話型関係抽出のための話者指向潜在構造

Speaker-Oriented Latent Structures for Dialogue-Based Relation Extraction ( http://arxiv.org/abs/2109.05182v1 )

ライセンス: Link先を確認
Guoshun Nan, Guoqing Luo, Sicong Leng, Yao Xiao and Wei Lu(参考訳) 対話に基づく関係抽出(DiaRE)は,対話における非構造的発話から構造情報を検出することを目的としている。 既存の関係抽出モデルは、複数の話者を含む発話における絡み合った論理と情報空間の問題のため、このような会話環境下では満足できないかもしれない。 そこで我々は,話者指向の潜在構造を明瞭に誘導し,より良いダイアログを実現する新しいモデルSOLSを提案する。 具体的には,発話境界を超えたトークン間の関係を捉えるために潜在構造を学習し,絡み合った論理問題を緩和する。 学習過程において,話者固有の正規化手法は,話者関連鍵の手がかりを徐々に強調し,無関係なものを消去し,情報スパーシティの問題を緩和する。 3つの公開データセットの実験により,提案手法の有効性が示された。

Dialogue-based relation extraction (DiaRE) aims to detect the structural information from unstructured utterances in dialogues. Existing relation extraction models may be unsatisfactory under such a conversational setting, due to the entangled logic and information sparsity issues in utterances involving multiple speakers. To this end, we introduce SOLS, a novel model which can explicitly induce speaker-oriented latent structures for better DiaRE. Specifically, we learn latent structures to capture the relationships among tokens beyond the utterance boundaries, alleviating the entangled logic issue. During the learning process, our speaker-specific regularization method progressively highlights speaker-related key clues and erases the irrelevant ones, alleviating the information sparsity issue. Experiments on three public datasets demonstrate the effectiveness of our proposed approach.
翻訳日:2021-09-14 15:50:20 公開日:2021-09-11
# 事前学習言語モデルによる多言語翻訳

Multilingual Translation via Grafting Pre-trained Language Models ( http://arxiv.org/abs/2109.05256v1 )

ライセンス: Link先を確認
Zewei Sun, Mingxuan Wang and Lei Li(参考訳) ある言語のBERTと別の言語のGPTを併用してテキストを翻訳できるのか? モノリンガルデータのみを用いた自己教師型トレーニングは、多くのNLPタスクにおいて事前訓練された言語モデルの成功につながっている。 しかし、BERTをエンコーダとして直接接続し、GPTをデコーダとしてGPTをデコーダとして接続することは、機械翻訳において困難である。 本稿では,機械翻訳のための事前学習言語モデルを個別に移植するためのGraformerを提案する。 事前学習のための単言語データと移植訓練のための並列データを用いて,両タイプのデータの利用を最大限に活用する。 60方向の実験では,同じ大きさの多言語変換器と比較して,x2enでは5.8BLEU,en2xでは2.9BLEUの平均的な改善が得られた。

Can pre-trained BERT for one language and GPT for another be glued together to translate texts? Self-supervised training using only monolingual data has led to the success of pre-trained (masked) language models in many NLP tasks. However, directly connecting BERT as an encoder and GPT as a decoder can be challenging in machine translation, for GPT-like models lack a cross-attention component that is needed in seq2seq decoders. In this paper, we propose Graformer to graft separately pre-trained (masked) language models for machine translation. With monolingual data for pre-training and parallel data for grafting training, we maximally take advantage of the usage of both types of data. Experiments on 60 directions show that our method achieves average improvements of 5.8 BLEU in x2en and 2.9 BLEU in en2x directions comparing with the multilingual Transformer of the same size.
翻訳日:2021-09-14 15:50:07 公開日:2021-09-11
# 確認を求める:効果的で人間に似た対話戦略

Looking for Confirmations: An Effective and Human-Like Visual Dialogue Strategy ( http://arxiv.org/abs/2109.05312v1 )

ライセンス: Link先を確認
Alberto Testoni and Raffaella Bernardi(参考訳) Visual Dialogueタスクでゴール指向の質問を生成することは、困難で長期にわたる問題である。 State-Of-The-Artシステムは文法的に正しいが、効果的な戦略が欠如しており、人間には不自然に聞こえる。 情報探索と断続的単語学習に関する認知文学から着想を得て,ビーム探索再分類アルゴリズムに基づくモデルであるConfirm-itを設計し,モデルが参照者について推測したことを裏付ける質問を行うことで,効果的な目標指向戦略を導出する。 何だと思う? ケーススタディとしてのゲーム。 確認によって生成された対話は,再ランク付けせずにビーム探索復号よりも自然かつ効果的であることを示す。

Generating goal-oriented questions in Visual Dialogue tasks is a challenging and long-standing problem. State-Of-The-Art systems are shown to generate questions that, although grammatically correct, often lack an effective strategy and sound unnatural to humans. Inspired by the cognitive literature on information search and cross-situational word learning, we design Confirm-it, a model based on a beam search re-ranking algorithm that guides an effective goal-oriented strategy by asking questions that confirm the model's conjecture about the referent. We take the GuessWhat?! game as a case-study. We show that dialogues generated by Confirm-it are more natural and effective than beam search decoding without re-ranking.
翻訳日:2021-09-14 15:49:51 公開日:2021-09-11
# HYDRA -- Hyper Dependency Representation Attentions

HYDRA -- Hyper Dependency Representation Attentions ( http://arxiv.org/abs/2109.05349v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Vu Tran, Tran-Binh Dang, Minh-Quan Bui, Minh-Phuong Nguyen, Le-Minh Nguyen(参考訳) 十分なデータがある限り、注意すべきことはそれだけです。 それでも、モデルが大きくなりつつある間に、どれだけのデータが十分であるかを判断するのは容易ではない。 本稿では,トランスフォーマーモデルに知識を注入するために,HyDRAヘッド,軽量な事前学習型言語自己注意ヘッドを提案する。 我々のアプローチは、モデルに教師なし学習を委ねることと、以前の研究で示唆されたように言語知識に厳格に従わせることのバランスのとれたパラダイムである。 我々の実験は、このアプローチがモデルの性能を高めるだけでなく、軽量でアーキテクチャに優しいことを証明する。 我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。 これは、言語資源から知識をトランスフォーマーベースのモデルに移す新しいアプローチにとって有望な結果である。

Attention is all we need as long as we have enough data. Even so, it is sometimes not easy to determine how much data is enough while the models are becoming larger and larger. In this paper, we propose HYDRA heads, lightweight pretrained linguistic self-attention heads to inject knowledge into transformer models without pretraining them again. Our approach is a balanced paradigm between leaving the models to learn unsupervised and forcing them to conform to linguistic knowledge rigidly as suggested in previous studies. Our experiment proves that the approach is not only the boost performance of the model but also lightweight and architecture friendly. We empirically verify our framework on benchmark datasets to show the contribution of linguistic knowledge to a transformer model. This is a promising result for a new approach to transferring knowledge from linguistic resources into transformer-based models.
翻訳日:2021-09-14 15:49:40 公開日:2021-09-11
# COMBO: 最先端のモルフォシンタクティック分析

COMBO: State-of-the-Art Morphosyntactic Analysis ( http://arxiv.org/abs/2109.05361v1 )

ライセンス: Link先を確認
Mateusz Klimaszewski, Alina Wr\'oblewska(参考訳) COMBO - 音声の正確なタグ付け、形態解析、補綴、および(拡張された)依存性解析のための完全なニューラルNLPシステムを紹介する。 分類的形態素的特徴を予測し、また隠れた層から抽出されたベクトル表現も公開する。 COMBOはPythonパッケージのインストールが簡単で、40以上の言語でトレーニング済みのモデルを自動的にダウンロードできる。 効率と品質のバランスを保っている。 エンドツーエンドシステムであり、モジュールは共同でトレーニングされているため、トレーニングは競争的に高速である。 モデルが精度に最適化されているため、SOTAよりも予測品質が良いことがしばしばある。 COMBOライブラリは以下の通りである。

We introduce COMBO - a fully neural NLP system for accurate part-of-speech tagging, morphological analysis, lemmatisation, and (enhanced) dependency parsing. It predicts categorical morphosyntactic features whilst also exposes their vector representations, extracted from hidden layers. COMBO is an easy to install Python package with automatically downloadable pre-trained models for over 40 languages. It maintains a balance between efficiency and quality. As it is an end-to-end system and its modules are jointly trained, its training is competitively fast. As its models are optimised for accuracy, they achieve often better prediction quality than SOTA. The COMBO library is available at: https://gitlab.clari n-pl.eu/syntactic-to ols/combo.
翻訳日:2021-09-14 15:49:25 公開日:2021-09-11
# 文書レベル関係抽出のためのモジュール自己スーパービジョン

Modular Self-Supervision for Document-Level Relation Extraction ( http://arxiv.org/abs/2109.05362v1 )

ライセンス: Link先を確認
Sheng Zhang, Cliff Wong, Naoto Usuyama, Sarthak Jain, Tristan Naumann, Hoifung Poon(参考訳) 大きなテキストスパンにまたがる関係の抽出はnlpでは比較的過小評価されているが、バイオメディシンのような高価値ドメインでは特に重要であり、最新の発見を高いリコールを得ることが実用的応用には不可欠である。 テキストスパンに限定した従来の情報抽出と比較して、文書レベルの関係抽出は推論と学習の両方において新たな課題に直面している。 より長いテキストスパンを考えると、最先端のニューラルネットワークアーキテクチャは効果が低く、遠隔監視のようなタスク固有の自己スーパービジョンは非常にうるさくなります。 本稿では,ダビドソン意味論から着想を得て,関係検出と引数解決に文書レベルの関係抽出を分解する。 これにより、明示的な談話モデリングを取り入れ、各サブプロブレムに対してモジュール化された自己スーパービジョンを活用できます。 クロスパラグラフ関係が普及する精密腫瘍学のために,バイオメディカルマシンリーディングの徹底的な評価を行う。 本手法は,マルチスケール学習やグラフニューラルネットワークなど,先行技術よりも20以上の絶対的f1点を上回っている。 利得は、議論が段落で共起しない最も困難な関係例の中で特に顕著である。

Extracting relations across large text spans has been relatively underexplored in NLP, but it is particularly important for high-value domains such as biomedicine, where obtaining high recall of the latest findings is crucial for practical applications. Compared to conventional information extraction confined to short text spans, document-level relation extraction faces additional challenges in both inference and learning. Given longer text spans, state-of-the-art neural architectures are less effective and task-specific self-supervision such as distant supervision becomes very noisy. In this paper, we propose decomposing document-level relation extraction into relation detection and argument resolution, taking inspiration from Davidsonian semantics. This enables us to incorporate explicit discourse modeling and leverage modular self-supervision for each sub-problem, which is less noise-prone and can be further refined end-to-end via variational EM. We conduct a thorough evaluation in biomedical machine reading for precision oncology, where cross-paragraph relation mentions are prevalent. Our method outperforms prior state of the art, such as multi-scale learning and graph neural networks, by over 20 absolute F1 points. The gain is particularly pronounced among the most challenging relation instances whose arguments never co-occur in a paragraph.
翻訳日:2021-09-14 15:49:13 公開日:2021-09-11
# 多言語圧縮における位置符号化の影響

The Impact of Positional Encodings on Multilingual Compression ( http://arxiv.org/abs/2109.05388v1 )

ライセンス: Link先を確認
Vinit Ravishankar, Anders S{\o}gaard(参考訳) 非自己回帰的な設定で語順情報を保存するために、トランスフォーマーアーキテクチャは(例えば)トークン埋め込みに位置エンコーディングを追加することで、位置知識を含む傾向がある。 例えば、位置エンコーディングとトークン埋め込みを分離したり、単語ペア間の距離に基づいて注意重みを直接修正したりするなどである。 これらの変更はモノリンガル言語モデルを改善する傾向にあるが、いずれのモデルもより良いマルチリンガル言語モデルをもたらすものではない。 正弦波符号化は任意の時間ステップ上の線形射影を許容することにより構成性を促進するように設計されている。 多言語学習分布の高次分散は高い圧縮を必要とするが、その場合、構成性は不可欠である。 絶対的な位置符号化(例:mBERT)は、多言語設定での正弦波埋め込みを近似する傾向があるが、より複雑な位置符号化アーキテクチャは、構成性や言語間アライメントを効果的に学習する帰納バイアスを欠いている。 言い換えれば、正弦波位置符号化はもともと単言語アプリケーション用に設計されたが、多言語言語モデルでは特に有用である。

In order to preserve word-order information in a non-autoregressive setting, transformer architectures tend to include positional knowledge, by (for instance) adding positional encodings to token embeddings. Several modifications have been proposed over the sinusoidal positional encodings used in the original transformer architecture; these include, for instance, separating position encodings and token embeddings, or directly modifying attention weights based on the distance between word pairs. We first show that surprisingly, while these modifications tend to improve monolingual language models, none of them result in better multilingual language models. We then answer why that is: Sinusoidal encodings were explicitly designed to facilitate compositionality by allowing linear projections over arbitrary time steps. Higher variances in multilingual training distributions requires higher compression, in which case, compositionality becomes indispensable. Learned absolute positional encodings (e.g., in mBERT) tend to approximate sinusoidal embeddings in multilingual settings, but more complex positional encoding architectures lack the inductive bias to effectively learn compositionality and cross-lingual alignment. In other words, while sinusoidal positional encodings were originally designed for monolingual applications, they are particularly useful in multilingual language models.
翻訳日:2021-09-14 15:48:52 公開日:2021-09-11
# robustart: アーキテクチャ設計とトレーニングテクニックに関するベンチマークロバスト性

RobustART: Benchmarking Robustness on Architecture Design and Training Techniques ( http://arxiv.org/abs/2109.05211v1 )

ライセンス: Link先を確認
Shiyu Tang and Ruihao Gong and Yan Wang and Aishan Liu and Jiakai Wang and Xinyun Chen and Fengwei Yu and Xianglong Liu and Dawn Song and Alan Yuille and Philip H.S. Torr and Dacheng Tao(参考訳) ディープニューラルネットワーク(DNN)は、モデル堅牢性のベンチマークを動機付ける敵対的ノイズに対して脆弱である。 既存のベンチマークは主に防御の評価に焦点を当てているが、アーキテクチャ設計と一般的なトレーニング技術が堅牢性にどのように影響するかに関する包括的な研究はない。 彼らの関係を総合的にベンチマークすることは、より理解し、堅牢なDNNを開発する上で非常に有益である。 そこで我々は,ImageNet(オープンソースツールキット,事前学習されたモデル動物園,データセット,分析を含む)のArchitecture設計(44の人間設計のオフザシェルフアーキテクチャとニューラルアーキテクチャ検索からの1200以上のネットワーク)とトレーニング技術(データ拡張など10以上の一般的なテクニック)に関する,最初の総合的なロバストネス調査ベンチマークであるRobustARTを提案する。 Extensive experiments revealed and substantiated several insights for the first time, for example: (1) adversarial training largely improves the clean accuracy and all types of robustness for Transformers and MLP-Mixers; (2) with comparable sizes, CNNs > Transformers > MLP-Mixers on robustness against natural and system noises; Transformers > MLP-Mixers > CNNs on adversarial robustness; (3) for some light-weight architectures (e.g., EfficientNet, MobileNetV2, and MobileNetV3), increasing model sizes or using extra training data cannot improve robustness. 筆者らのベンチマーク http://robust.art/ : (1) は,多種多様なロバスト性評価を行うためのオープンソースプラットフォームを提示する; (2) 頑健性評価を容易にするために,さまざまなトレーニング技術を備えた事前学習モデルを提供し,(3) 解析によって裏付けられた堅牢性DNNアーキテクチャ設計のメカニズムをより深く理解するための,新たな視点を提案する。 私たちはコミュニティのためにこのエコシステムの構築に継続的に貢献します。

Deep neural networks (DNNs) are vulnerable to adversarial noises, which motivates the benchmark of model robustness. Existing benchmarks mainly focus on evaluating the defenses, but there are no comprehensive studies of how architecture design and general training techniques affect robustness. Comprehensively benchmarking their relationships will be highly beneficial for better understanding and developing robust DNNs. Thus, we propose RobustART, the first comprehensive Robustness investigation benchmark on ImageNet (including open-source toolkit, pre-trained model zoo, datasets, and analyses) regarding ARchitecture design (44 human-designed off-the-shelf architectures and 1200+ networks from neural architecture search) and Training techniques (10+ general techniques, e.g., data augmentation) towards diverse noises (adversarial, natural, and system noises). Extensive experiments revealed and substantiated several insights for the first time, for example: (1) adversarial training largely improves the clean accuracy and all types of robustness for Transformers and MLP-Mixers; (2) with comparable sizes, CNNs > Transformers > MLP-Mixers on robustness against natural and system noises; Transformers > MLP-Mixers > CNNs on adversarial robustness; (3) for some light-weight architectures (e.g., EfficientNet, MobileNetV2, and MobileNetV3), increasing model sizes or using extra training data cannot improve robustness. Our benchmark http://robust.art/ : (1) presents an open-source platform for conducting comprehensive evaluation on diverse robustness types; (2) provides a variety of pre-trained models with different training techniques to facilitate robustness evaluation; (3) proposes a new view to better understand the mechanism towards designing robust DNN architectures, backed up by the analysis. We will continuously contribute to building this ecosystem for the community.
翻訳日:2021-09-14 15:41:40 公開日:2021-09-11
# ロバストかつ効率的な視覚対応のための畳み込みハフマッチングネットワーク

Convolutional Hough Matching Networks for Robust and Efficient Visual Correspondence ( http://arxiv.org/abs/2109.05221v1 )

ライセンス: Link先を確認
Juhong Min, Seungwook Kim, and Minsu Cho(参考訳) 特徴表現の進歩にもかかわらず、幾何関係の活用は画像の多彩なバリエーションの下で信頼できる視覚対応を確立する上で重要である。 本研究では,畳み込み整合に対するハフ変換の視点を導入し,畳み込み整合(CHM)と呼ばれる効果的な幾何整合アルゴリズムを提案する。 この方法は、幾何学的変換空間上に候補マッチングの類似性を分散し、それらを畳み込み方式で評価する。 半等方性高次元カーネルを持つ学習可能な神経層にキャストし、少数の解釈可能なパラメータとの非剛性マッチングを学習した。 また, 高次元投票の効率向上のために, 提案する半等方性カーネルを性能劣化なく大幅に分散させる, 中心ピボット近傍の効率的なカーネル分解法を提案する。 提案手法を検証するため,翻訳とスケーリングの空間において畳み込みマッチングを行うCHM層を用いたニューラルネットワークを開発した。 本手法は,意味的視覚対応のための標準ベンチマークの新たな技術を確立し,クラス内変動に対する強固さを証明した。

Despite advances in feature representation, leveraging geometric relations is crucial for establishing reliable visual correspondences under large variations of images. In this work we introduce a Hough transform perspective on convolutional matching and propose an effective geometric matching algorithm, dubbed Convolutional Hough Matching (CHM). The method distributes similarities of candidate matches over a geometric transformation space and evaluates them in a convolutional manner. We cast it into a trainable neural layer with a semi-isotropic high-dimensional kernel, which learns non-rigid matching with a small number of interpretable parameters. To further improve the efficiency of high-dimensional voting, we also propose to use an efficient kernel decomposition with center-pivot neighbors, which significantly sparsifies the proposed semi-isotropic kernels without performance degradation. To validate the proposed techniques, we develop the neural network with CHM layers that perform convolutional matching in the space of translation and scaling. Our method sets a new state of the art on standard benchmarks for semantic visual correspondence, proving its strong robustness to challenging intra-class variations.
翻訳日:2021-09-14 15:41:07 公開日:2021-09-11
# 大規模非拘束道路における都市移動のためのコンピュータビジョン技術の評価

Evaluating Computer Vision Techniques for Urban Mobility on Large-Scale, Unconstrained Roads ( http://arxiv.org/abs/2109.05226v1 )

ライセンス: Link先を確認
Harish Rithish, Raghava Modhugu, Ranjith Reddy, Rohit Saluja, C.V. Jawahar(参考訳) 道路安全への従来のアプローチは、手動介入やimmobile cctvインフラに依存している。 このような手法は交通規則の遵守に費用がかかり、大規模な道路網にスケールしない。 本稿では,道路安全の課題に対処するために,簡易な移動画像撮影装置を提案する。 近年のコンピュータビジョン技術を用いて、道路上の不規則性、街路灯の欠如、移動中のカメラ搭載車両のビデオによる不規則な交通標識を特定する。 静的な道路インフラの検査以外にも,交通違反を検知するモバイルイメージングソリューションの適用性についても実証する。 システムを実世界で展開する前に,13の条件に基づく階層ラベル上でのコンピュータビジョン技術の長所と短所について検討する。 これらの条件には、異なるタイミング、道路タイプ、交通密度、道路損傷の状態が含まれる。 デモは2000kmの未制限の道路シーンで実施され、都市全体で撮影された。 これにより、慎重に構築されたメトリクスを用いて、市内の道路全体の安全性を定量的に測定する。 また,作業時間,作業時間,コスト効率の面で視覚的に動作を検査し,開始するためのインタラクティブなダッシュボードも提示する。 この作業で使用されるコード、モデル、データセットが公開される。

Conventional approaches for addressing road safety rely on manual interventions or immobile CCTV infrastructure. Such methods are expensive in enforcing compliance to traffic rules and do not scale to large road networks. This paper proposes a simple mobile imaging setup to address several common problems in road safety at scale. We use recent computer vision techniques to identify possible irregularities on roads, the absence of street lights, and defective traffic signs using videos from a moving camera-mounted vehicle. Beyond the inspection of static road infrastructure, we also demonstrate the mobile imaging solution's applicability to spot traffic violations. Before deploying our system in the real-world, we investigate the strengths and shortcomings of computer vision techniques on thirteen condition-based hierarchical labels. These conditions include different timings, road type, traffic density, and state of road damage. Our demonstrations are then carried out on 2000 km of unconstrained road scenes, captured across an entire city. Through this, we quantitatively measure the overall safety of roads in the city through carefully constructed metrics. We also show an interactive dashboard for visually inspecting and initiating action in a time, labor and cost-efficient manner. Code, models, and datasets used in this work will be publicly released.
翻訳日:2021-09-14 15:40:47 公開日:2021-09-11
# 長期視覚認識のためのクラス分散・アウェアキャリブレーション

Class-Distribution-A ware Calibration for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2109.05263v1 )

ライセンス: Link先を確認
Mobarakol Islam, Lalithkumar Seenivasan, Hongliang Ren, Ben Glocker(参考訳) 精度は素晴らしいものの、ディープニューラルネットワークはしばしば誤って調整され、自信過剰な予測をする傾向がある。 温度スケーリング (TS) やラベル平滑化 (LS) といった最近の技術は, それぞれスカラー因子を用いたロジットと硬質ラベルを平滑化することにより, 良好な校正モデルが得られることを示す。 しかし、一様TSまたはLS因子の使用は、モデルが高頻度クラスに対して過度に確実な確率を生成する長い尾のデータセットで訓練されたモデルの校正に最適ではないかもしれない。 本研究では,モデルキャリブレーションにクラス周波数情報を組み込むことにより,クラス分布を考慮したTS(CDA-TS)とLS(CDA-LS)を提案する。 CDA-TSでは、スカラー温度値をクラス周波数に符号化したCDA温度ベクトルに置き換え、過信を補償する。 同様に、CDA-LSはベクトル滑らか化係数を使用し、対応するクラス分布に応じてハードラベルを平坦化する。 また,CDA最適温度ベクトルと蒸留損失を統合し,自己蒸留(SD)の誤校正を低減する。 クラス分散認識型tsとlsは、キャリブレーション誤差と予測精度の両方において優れた性能をもたらす不均衡データ分布を満足できることを実証的に示す。 また,極めて不均衡なデータセットを持つSDはキャリブレーション性能の点で効果が低いことも確認した。 コードはhttps://github.com/m obarakol/Class-Distr ibution-Aware-TS-LSで公開されている。

Despite impressive accuracy, deep neural networks are often miscalibrated and tend to overly confident predictions. Recent techniques like temperature scaling (TS) and label smoothing (LS) show effectiveness in obtaining a well-calibrated model by smoothing logits and hard labels with scalar factors, respectively. However, the use of uniform TS or LS factor may not be optimal for calibrating models trained on a long-tailed dataset where the model produces overly confident probabilities for high-frequency classes. In this study, we propose class-distribution-a ware TS (CDA-TS) and LS (CDA-LS) by incorporating class frequency information in model calibration in the context of long-tailed distribution. In CDA-TS, the scalar temperature value is replaced with the CDA temperature vector encoded with class frequency to compensate for the over-confidence. Similarly, CDA-LS uses a vector smoothing factor and flattens the hard labels according to their corresponding class distribution. We also integrate CDA optimal temperature vector with distillation loss, which reduces miscalibration in self-distillation (SD). We empirically show that class-distribution-a ware TS and LS can accommodate the imbalanced data distribution yielding superior performance in both calibration error and predictive accuracy. We also observe that SD with an extremely imbalanced dataset is less effective in terms of calibration performance. Code is available in https://github.com/m obarakol/Class-Distr ibution-Aware-TS-LS.
翻訳日:2021-09-14 15:40:31 公開日:2021-09-11
# 異なる個人的フェデレーション学習のためのユーティリティフェアネス

Utility Fairness for the Differentially Private Federated Learning ( http://arxiv.org/abs/2109.05267v1 )

ライセンス: Link先を確認
Sheeraz A. Alvi, Yi Hong, and Salman Durrani(参考訳) フェデレートラーニング(FL)は、エネルギー、時間、プライバシの観点からデータ収集コストを回避するために、無線IoT(Internet of Things)ネットワークにおける知覚されたデータの予測モデルトレーニングを可能にする。 本稿では,iotデバイスが達成した学習成果をfl設定のために,その参加コストを有効性としてモデル化する。 局所的なモデルの品質と関連するコストは、デバイス間の時間的変化によって異なる。 同一のグローバルモデルがデバイス間で共有されているため,この結果が有効不公平であることが確認できた。 バニラfl設定では、マスターはデバイスの局所的なモデル計算と伝送コストを知らないため、実用上の不公平な問題に対処できない。 さらに、このマスターの知識の欠如を利用して故意に支出を削減し、それによって有用性を高めることができる。 我々は,各ラウンドにおいて,その貢献と支出に基づいて,デバイスと共有するグローバルモデルの品質を制御することを提案する。 これは、差分プライバシを使用して、学習貢献に基づいてグローバルモデルダイオージェンスを縮小することで達成される。 さらに,有効性の不公平性を軽減するため,各デバイスに対して適応計算と伝送ポリシーを考案した。 提案手法は,機器のトレーニング損失の標準偏差が約0.103であるのに対して,ベンチマーク方式と比較して,機器のエネルギーコストの標準偏差を99%削減することを示す。

Federated learning (FL) allows predictive model training on the sensed data in a wireless Internet of things (IoT) network evading data collection cost in terms of energy, time, and privacy. In this paper, for a FL setting, we model the learning gain achieved by an IoT device against its participation cost as its utility. The local model quality and the associated cost differs from device to device due to the device-heterogeneity which could be time-varying. We identify that this results in utility unfairness because the same global model is shared among the devices. In the vanilla FL setting, the master is unaware of devices' local model computation and transmission costs, thus it is unable to address the utility unfairness problem. In addition, a device may exploit this lack of knowledge at the master to intentionally reduce its expenditure and thereby boost its utility. We propose to control the quality of the global model shared with the devices, in each round, based on their contribution and expenditure. This is achieved by employing differential privacy to curtail global model divulgence based on the learning contribution. Furthermore, we devise adaptive computation and transmission policies for each device to control its expenditure in order to mitigate utility unfairness. Our results show that the proposed scheme reduces the standard deviation of the energy cost of devices by 99% in comparison to the benchmark scheme, while the standard deviation of the training loss of devices varies around 0.103.
翻訳日:2021-09-14 15:31:35 公開日:2021-09-11
# MLBでプレイヤーフォームを記述できることを学ぶ

Learning To Describe Player Form in The MLB ( http://arxiv.org/abs/2109.05280v1 )

ライセンス: Link先を確認
Connor Heaton, Prasenjit Mitra(参考訳) メジャーリーグ野球(MLB、Major League Baseball)は、野球の試合をよりよく理解し、議論するために統計を使った歴史がある。 その中心となるものは、すべてのサーバーメトリックスがゲームのいくつかの側面を定量化することであり、しばしばプレイヤーのスキルセットの特定の側面である、例えばバッターのインラン能力(rbi)やバッターがベースに到達しないようにするピッチャー能力(whip)などである。 有用ではあるが、そのような統計は、現地で何が起こったのかという説明から来ているという事実によって、基本的に制限されている。 この欠点を緩和するための第一歩として,mlbにおけるプレーヤフォーム記述のための新しいコントラスト学習ベースのフレームワークを提案する。 我々は,選手が最近出現したプレーの行程にどのような影響を与えたかを示すためにフォームを使用する。 具体的には、プレイヤーのフォームは72次元ベクトルによって記述される。 我々のフォーム表現から得られるプレイヤーのクラスタと従来のアバメトリックスから得られるプレイヤーのクラスタを比較することで、我々のフォーム表現がプレイヤーがプレイのコースにどう影響するかの情報を含んでいることを実証する。 これらの埋め込みは、ゲーム内およびゲームレベルのイベント、例えば、アットバットやゲームの勝者の結果を予測するために利用できると信じています。

Major League Baseball (MLB) has a storied history of using statistics to better understand and discuss the game of baseball, with an entire discipline of statistics dedicated to the craft, known as sabermetrics. At their core, all sabermetrics seek to quantify some aspect of the game, often a specific aspect of a player's skill set - such as a batter's ability to drive in runs (RBI) or a pitcher's ability to keep batters from reaching base (WHIP). While useful, such statistics are fundamentally limited by the fact that they are derived from an account of what happened on the field, not how it happened. As a first step towards alleviating this shortcoming, we present a novel, contrastive learning-based framework for describing player form in the MLB. We use form to refer to the way in which a player has impacted the course of play in their recent appearances. Concretely, a player's form is described by a 72-dimensional vector. By comparing clusters of players resulting from our form representations and those resulting from traditional abermetrics, we demonstrate that our form representations contain information about how players impact the course of play, not present in traditional, publicly available statistics. We believe these embeddings could be utilized to predict both in-game and game-level events, such as the result of an at-bat or the winner of a game.
翻訳日:2021-09-14 15:31:13 公開日:2021-09-11
# 双方向LSTMネットワークを用いたハードディスクドライブの寿命推定

Remaining Useful Life Estimation of Hard Disk Drives using Bidirectional LSTM Networks ( http://arxiv.org/abs/2109.05351v1 )

ライセンス: Link先を確認
Austin Coursey, Gopal Nath, Srikanth Prabhu and Saptarshi Sengupta(参考訳) 物理およびクラウドストレージサービスは、機能的で信頼性の高い高ボリュームストレージシステムによって保護されている。 最近の観測では、HDDなどの大量のストレージデバイスを含むデータセンターにおいて、ハードディスクの信頼性が最も重要な信頼性問題の一つであることを示している。 この点において、ディスクレベルの差し迫った障害を早期に検出することは、システムダウンタイムの低減と運用上の損失の低減に役立つ。 本研究では,運用障害に関連する有意な属性を抽出し,データ駆動型アプローチによるその後の予測タスクにおいて,高度に不均衡な健康統計データを前処理する手法を提案する。 複数日間の振り返り期間を持つ双方向LSTMを用いて、健康指標の時間的進行を学習し、バニラLSTMとランダムフォレストモデルに対してベースライン化することで、厳密に定義された運用制約の下で、我々のモデルの有用性と優越性を確立する重要な指標を考案する。 例えば、15日間の振り返り期間を用いることで、60日前のテストデータを考慮すると、96.4%の精度でディスク障害の発生を予測できる。 これによりオペレーションのメンテナンスに対して,潜在的な緩和ニーズを十分に警告することが可能になります。 また,本モデルでは,60日以内の故障を予測できる平均絶対誤差0.12を報告している。

Physical and cloud storage services are well-served by functioning and reliable high-volume storage systems. Recent observations point to hard disk reliability as one of the most pressing reliability issues in data centers containing massive volumes of storage devices such as HDDs. In this regard, early detection of impending failure at the disk level aids in reducing system downtime and reduces operational loss making proactive health monitoring a priority for AIOps in such settings. In this work, we introduce methods of extracting meaningful attributes associated with operational failure and of pre-processing the highly imbalanced health statistics data for subsequent prediction tasks using data-driven approaches. We use a Bidirectional LSTM with a multi-day look back period to learn the temporal progression of health indicators and baseline them against vanilla LSTM and Random Forest models to come up with several key metrics that establish the usefulness of and superiority of our model under some tightly defined operational constraints. For example, using a 15 day look back period, our approach can predict the occurrence of disk failure with an accuracy of 96.4% considering test data 60 days before failure. This helps to alert operations maintenance well in-advance about potential mitigation needs. In addition, our model reports a mean absolute error of 0.12 for predicting failure up to 60 days in advance, placing it among the state-of-the-art in recent literature.
翻訳日:2021-09-14 15:30:49 公開日:2021-09-11
# 構文的類似論理プログラムと逐次分解について

On syntactically similar logic programs and sequential decompositions ( http://arxiv.org/abs/2109.05300v1 )

ライセンス: Link先を確認
Christian Antic(参考訳) ルールベースの推論は、論理プログラムを通じて人工知能研究において顕著に形式化された人間の知能の重要な部分である。 複雑なオブジェクトを初等的なオブジェクトの合成として記述することは、コンピュータ科学および科学全般において共通の戦略である。 著者らは最近、論理プログラミングにおけるアナログ推論と学習の文脈において、論理プログラムの逐次合成を導入した。 本稿では,これらの応用に動機づけられ,プログラムの逐次分解による構文論理プログラムの類似性に関する定性的・代数的概念を構築する。 次に、一段階の還元により、異なるドメインにわたるクエリにどのように類似性を使って答えるかを示す。 より広い意味では、1985年にRichard O. Keefeによって考えられた論理プログラムの代数へのさらなるステップであり、類推論への応用である。

Rule-based reasoning is an essential part of human intelligence prominently formalized in artificial intelligence research via logic programs. Describing complex objects as the composition of elementary ones is a common strategy in computer science and science in general. The author has recently introduced the sequential composition of logic programs in the context of logic-based analogical reasoning and learning in logic programming. Motivated by these applications, in this paper we construct a qualitative and algebraic notion of syntactic logic program similarity from sequential decompositions of programs. We then show how similarity can be used to answer queries across different domains via a one-step reduction. In a broader sense, this paper is a further step towards an algebra of logic programs first envisioned by Richard O. Keefe in 1985 with applications to analogical reasoning.
翻訳日:2021-09-14 15:28:16 公開日:2021-09-11
# ロジスティックツリー正規潜在ディリクレ配置を用いたマイクロバイオームサブコミュニティ学習

Microbiome subcommunity learning with logistic-tree normal latent Dirichlet allocation ( http://arxiv.org/abs/2109.05386v1 )

ライセンス: Link先を確認
Patrick LeBlanc and Li Ma(参考訳) LDA(Latent Dirichlet Allocation)のような混合メンバーシップ(MM)モデルは、微生物種の潜伏サブコミュニティを特定するために微生物組成データに適用されている。 しかし、特に腸から採取された微生物組成データでは、現在のMM法では説明できないサブコミュニティ組成にかなりのクロスサンプル不均一性を示すのが一般的である。 この制限に対処するために、ロジスティック・ツリー・ノーマル(ltn)モデル -- 系統樹構造を使用する -- をldaモデルに組み込んで、新しいmmモデルを形成する。 このモデルは、ある `centroid'' 構成の周りの各サブコミュニティの組成の変動を可能にする。 補助的なP\'olya-Gamma変数を組み込むことで、計算効率のよい崩壊したギブスサンプリング器がベイズ推定を行うことができる。 我々は,新しいモデルとLDAを比較し,LDAモデルの下では大きなクロスサンプル不均一性が存在する場合,その結果の推測は,クロスサンプル不均一性を考慮していないため,サブコミュニティの総数に極めて敏感であることを示す。 そのため、MMモデルの他の応用における一般的な戦略は、サブコミュニティの数を過剰に指定し、有意義なサブコミュニティが人工的に現れることを期待している。 対照的に,このような異質性を考慮し,mmモデルは,サブコミュニティ数の仕様における推論の頑健さを復元し,また,この戦略の下で意味のあるサブコミュニティを特定することを可能にする。

Mixed-membership (MM) models such as Latent Dirichlet Allocation (LDA) have been applied to microbiome compositional data to identify latent subcommunities of microbial species. However, microbiome compositional data, especially those collected from the gut, typically display substantial cross-sample heterogeneities in the subcommunity composition which current MM methods do not account for. To address this limitation, we incorporate the logistic-tree normal (LTN) model -- using the phylogenetic tree structure -- into the LDA model to form a new MM model. This model allows variation in the composition of each subcommunity around some ``centroid'' composition. Incorporation of auxiliary P\'olya-Gamma variables enables a computationally efficient collapsed blocked Gibbs sampler to carry out Bayesian inference under this model. We compare the new model and LDA and show that in the presence of large cross-sample heterogeneity, under the LDA model the resulting inference can be extremely sensitive to the specification of the total number of subcommunities as it does not account for cross-sample heterogeneity. As such, the popular strategy in other applications of MM models of overspecifying the number of subcommunities -- and hoping that some meaningful subcommunities will emerge among artificial ones -- can lead to highly misleading conclusions in the microbiome context. In contrast, by accounting for such heterogeneity, our MM model restores the robustness of the inference in the specification of the number of subcommunities and again allows meaningful subcommunities to be identified under this strategy.
翻訳日:2021-09-14 15:27:15 公開日:2021-09-11
# 学習に基づくスコリシス評価のためのスピン過程の定位に基づくロボット・ウルトラサウンドナビゲーション

Follow the Curve: Robotic-Ultrasound Navigation with Learning Based Localization of Spinous Processes for Scoliosis Assessment ( http://arxiv.org/abs/2109.05196v1 )

ライセンス: Link先を確認
Maria Victorova, Michael Ka-Shing Lee, David Navarro-Alarcon and Yongping Zheng(参考訳) 青年期における側頭葉の進行は、時間的に治療措置を取るために綿密な監視を必要とする。 超音波イメージングは、通常臨床で使用されるX線に対するスコリシス評価において、放射線のない低コストの代替手段である。 しかし、超音波画像はスペックルノイズを起こす傾向があり、ソノグラフィーが骨の特徴を検出して脊椎の曲率に従うことは困難である。 本稿では,脊椎曲率追跡と自動ナビゲーションのためのロボット超音波手法を提案する。 非畳み込みヘッドを用いた完全接続型ネットワークを開発し, リアルタイム超音波画像を用いてスピン化過程を効率的に検出する。 本手法は,ロボットによる超音波プローブの動作を誘導し,超音波画像と対応する位置を撮影しながら,脊椎曲率に追従する。 皮膚表面に対するプローブの姿勢を自動的に調整し、プローブと皮膚との音響結合性を確保する新しい力駆動制御器を開発した。 スキャン後、取得したデータは、スコリシス脊椎の変形を評価・測定できる冠状脊柱像の再構築に使用される。 本手法の性能を評価するために,ロボット化作業中の画像中心からのずれを手作業で得たものと比較した被験者を対象に実験を行った。 脊柱再建術の画像で測定された脊柱変形角度はどちらの方法にも似ており、人体の解剖を等しく反映していることが示唆された。

The scoliosis progression in adolescents requires close monitoring to timely take treatment measures. Ultrasound imaging is a radiation-free and low-cost alternative in scoliosis assessment to X-rays, which are typically used in clinical practice. However, ultrasound images are prone to speckle noises, making it challenging for sonographers to detect bony features and follow the spine's curvature. This paper introduces a robotic-ultrasound approach for spinal curvature tracking and automatic navigation. A fully connected network with deconvolutional heads is developed to locate the spinous process efficiently with real-time ultrasound images. We use this machine learning-based method to guide the motion of the robot-held ultrasound probe and follow the spinal curvature while capturing ultrasound images and correspondent position. We developed a new force-driven controller that automatically adjusts the probe's pose relative to the skin surface to ensure a good acoustic coupling between the probe and skin. After the scanning, the acquired data is used to reconstruct the coronal spinal image, where the deformity of the scoliosis spine can be assessed and measured. To evaluate the performance of our methodology, we conducted an experimental study with human subjects where the deviations from the image center during the robotized procedure are compared to that obtained from manual scanning. The angles of spinal deformity measured on spinal reconstruction images were similar for both methods, implying that they equally reflect human anatomy.
翻訳日:2021-09-14 15:25:49 公開日:2021-09-11
# 光フロー支援リカレントニューラルネットワークによるデュアルビュースナップショット圧縮イメージング

Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent Neural Network ( http://arxiv.org/abs/2109.05287v1 )

ライセンス: Link先を確認
Ruiying Lu, Bo Chen, Guanliang Liu, Ziheng Cheng, Mu Qiao, Xin Yuan(参考訳) デュアルビュー・スナップショット圧縮画像(SCI)は、2次元センサ(検出器)を用いて2次元の視野(FoV)からの映像を単一のスナップショットでキャプチャし、共同FoVと時間的圧縮センシングを実現し、低帯域幅、低消費電力、低コストの利点を享受することを目的としている。 しかし、既存のモデルに基づくデコードアルゴリズムでは、大規模データに対して非常に長い実行時間を伴う徹底的なパラメータチューニングを必要とする個々のシーンを再構築することが困難である。 本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。 まず,2つのFoVのシーンの違いを拡大する多様性増幅法を開発し,両枝を持つ深部畳み込みニューラルネットワークを設計し,異なるシーンを単一の測定から分離する。 次に,隣接フレームから抽出した双方向光フローをリカレントニューラルネットワークと統合し,各映像を逐次的に再構成する。 シミュレーションと実データの両方の大規模な結果から,提案モデルの性能が短時間で向上したことを示す。 コードとデータはhttps://github.com/R uiyingLu/OFaNet-for- Dual-view-SCIで公開されている。

Dual-view snapshot compressive imaging (SCI) aims to capture videos from two field-of-views (FoVs) using a 2D sensor (detector) in a single snapshot, achieving joint FoV and temporal compressive sensing, and thus enjoying the advantages of low-bandwidth, low-power, and low-cost. However, it is challenging for existing model-based decoding algorithms to reconstruct each individual scene, which usually require exhaustive parameter tuning with extremely long running time for large scale data. In this paper, we propose an optical flow-aided recurrent neural network for dual video SCI systems, which provides high-quality decoding in seconds. Firstly, we develop a diversity amplification method to enlarge the differences between scenes of two FoVs, and design a deep convolutional neural network with dual branches to separate different scenes from the single measurement. Secondly, we integrate the bidirectional optical flow extracted from adjacent frames with the recurrent neural network to jointly reconstruct each video in a sequential manner. Extensive results on both simulation and real data demonstrate the superior performance of our proposed model in a short inference time. The code and data are available at https://github.com/R uiyingLu/OFaNet-for- Dual-view-SCI.
翻訳日:2021-09-14 15:25:24 公開日:2021-09-11
# グラフ畳み込みネットワークを用いたPercoll Gradient画像からのシックル細胞病重症度予測

Sickle Cell Disease Severity Prediction from Percoll Gradient Images using Graph Convolutional Networks ( http://arxiv.org/abs/2109.05372v1 )

ライセンス: Link先を確認
Ario Sadafi, Asya Makhro, Leonid Livshits, Nassir Navab, Anna Bogdanova, Shadi Albarqouni, Carsten Marr(参考訳) シックル細胞病(Sickle cell disease, SCD)は、赤血球の早期破壊を引き起こす重篤な遺伝性ヘモグロビン疾患である。 本疾患の重症度評価は、一般的な遺伝子原因にもかかわらず、SCD発現の広範なばらつきの原因が不明であるため、臨床経過において難しい課題である。 重症度を予測するバイオマーカーの同定は、予後と治療に対する患者の応答性を評価する上で重要である。 ペルコール濃度勾配の分離による赤血球密度の変化の検出は、細胞間差を解消し、破壊や血管閉塞を引き起こす最も損傷の大きい高密度細胞を追従できるマーカーとなる可能性がある。 パーコール勾配におけるrbcs分布から得られた画像の定量化と得られた画像の解釈は,この手法の確立に重要な前提条件である。 本稿では,グラフ畳み込みネットワーク,畳み込みニューラルネットワーク,高速フーリエ変換,再帰的特徴除去を組み合わせた新しい手法を提案する。 グラフ畳み込みネットワークのトレーニングには2つの重要な検査用血液検査パラメーターが使用される。 予測中、モデルがそのようなテストから独立するようにするため、2つのパラメータはpercollイメージから直接ニューラルネットワークによって推定される。 216人の被験者のコホートにおいて,基礎実験室の測定を行うアプローチよりわずかに低い予測性能が得られた。 提案手法は,scd重症度予測の難しいタスクに対する最初の計算手法である。 2段階のアプローチは安価でシンプルな血液分析ツールのみに依存しており、医療機器や医師へのアクセスが限られている未発達国において患者の生存に大きな影響を与える可能性がある。

Sickle cell disease (SCD) is a severe genetic hemoglobin disorder that results in premature destruction of red blood cells. Assessment of the severity of the disease is a challenging task in clinical routine since the causes of broad variance in SCD manifestation despite the common genetic cause remain unclear. Identification of the biomarkers that would predict the severity grade is of importance for prognosis and assessment of responsiveness of patients to therapy. Detection of the changes in red blood cell (RBC) density through separation of Percoll density gradient could be such marker as it allows to resolve intercellular differences and follow the most damaged dense cells prone to destruction and vaso-occlusion. Quantification of the images obtained from the distribution of RBCs in Percoll gradient and interpretation of the obtained is an important prerequisite for establishment of this approach. Here, we propose a novel approach combining a graph convolutional network, a convolutional neural network, fast Fourier transform, and recursive feature elimination to predict the severity of SCD directly from a Percoll image. Two important but expensive laboratory blood test parameters measurements are used for training the graph convolutional network. To make the model independent from such tests during prediction, the two parameters are estimated by a neural network from the Percoll image directly. On a cohort of 216 subjects, we achieve a prediction performance that is only slightly below an approach where the groundtruth laboratory measurements are used. Our proposed method is the first computational approach for the difficult task of SCD severity prediction. The two-step approach relies solely on inexpensive and simple blood analysis tools and can have a significant impact on the patients' survival in underdeveloped countries where access to medical instruments and doctors is limited
翻訳日:2021-09-14 15:25:01 公開日:2021-09-11
# 2次情報を用いた機械学習のための2重適応スケールドアルゴリズム

Doubly Adaptive Scaled Algorithm for Machine Learning Using Second-Order Information ( http://arxiv.org/abs/2109.05198v1 )

ライセンス: Link先を確認
Majid Jahani, Sergey Rusakov, Zheng Shi, Peter Richt\'arik, Michael W. Mahoney, Martin Tak\'a\v{c}(参考訳) 本稿では,大規模機械学習問題に対する適応最適化アルゴリズムを提案する。 局所曲率とリプシッツ平滑度を低コストで推定し,探索方向とステップサイズを動的に適応する。 探索方向は、局所曲率情報をキャプチャする良好なスケールの対角事前条件行列により予め設定された勾配情報を含む。 学習速度はハイパーパラメータを付加することなく自動的に更新されるため,学習速度チューニングの面倒な作業は不要である。 我々は、決定論的および確率的レジームにおいて、凸、強凸、非凸問題を含む包括的最適化問題の集合に対する収束保証を提供する。 また、標準機械学習問題に対する広範な経験的評価を行い、アルゴリズムの汎用性を正当化し、他の1次および2次方法と比較してその強力な性能を示す。

We present a novel adaptive optimization algorithm for large-scale machine learning problems. Equipped with a low-cost estimate of local curvature and Lipschitz smoothness, our method dynamically adapts the search direction and step-size. The search direction contains gradient information preconditioned by a well-scaled diagonal preconditioning matrix that captures the local curvature information. Our methodology does not require the tedious task of learning rate tuning, as the learning rate is updated automatically without adding an extra hyperparameter. We provide convergence guarantees on a comprehensive collection of optimization problems, including convex, strongly convex, and nonconvex problems, in both deterministic and stochastic regimes. We also conduct an extensive empirical evaluation on standard machine learning problems, justifying our algorithm's versatility and demonstrating its strong performance compared to other start-of-the-art first-order and second-order methods.
翻訳日:2021-09-14 15:15:47 公開日:2021-09-11
# 物理に基づく深層学習

Physics-based Deep Learning ( http://arxiv.org/abs/2109.05237v1 )

ライセンス: Link先を確認
Nils Thuerey and Philipp Holl and Maximilian Mueller and Patrick Schnell and Felix Trost and Kiwon Um(参考訳) このデジタルブックには、物理シミュレーションの文脈におけるディープラーニングに関連するすべての実践的で包括的な紹介が含まれている。 可能な限り、すべてのトピックは、jupyterノートブックの形式でハンズオンコード例を使って、すぐに始めることができます。 データからの標準的な教師付き学習以外にも、物理的損失の制約、より密結合した学習アルゴリズムと微分可能なシミュレーション、強化学習と不確実性モデリングについても検討する。 これらの手法は、コンピュータシミュレーションが達成できることを根本的に変える大きな可能性を秘めています。

This digital book contains a practical and comprehensive introduction of everything related to deep learning in the context of physical simulations. As much as possible, all topics come with hands-on code examples in the form of Jupyter notebooks to quickly get started. Beyond standard supervised learning from data, we'll look at physical loss constraints, more tightly coupled learning algorithms with differentiable simulations, as well as reinforcement learning and uncertainty modeling. We live in exciting times: these methods have a huge potential to fundamentally change what computer simulations can achieve.
翻訳日:2021-09-14 15:15:34 公開日:2021-09-11
# オンライン推薦システムにおける隠れフィードバックループの存在条件

Existence conditions for hidden feedback loops in online recommender systems ( http://arxiv.org/abs/2109.05278v1 )

ライセンス: Link先を確認
Anton S. Khritankov and Anton A. Pilkevich(参考訳) オンラインレコメンデーションシステムにおける隠れたフィードバックループ効果について検討する。 フィードバックループは、少数のサブセットに対するオンラインマルチアームバンディット(MAB)勧告の低下と、カバレッジと新規性の喪失をもたらす。 ユーザの関心事における不確実性とノイズがフィードバックループの存在に与える影響について検討する。 まず,ユーザの興味を損なわない無作為なノイズがフィードバックループを妨げないことを示す。 第2に,ユーザの関心を再設定する非ゼロ確率はフィードバックループを制限し,効果の大きさを推定するのに十分であることを示す。 実験では,4つのバンディットアルゴリズムのシミュレーション環境における理論的知見を確認した。

We explore a hidden feedback loops effect in online recommender systems. Feedback loops result in degradation of online multi-armed bandit (MAB) recommendations to a small subset and loss of coverage and novelty. We study how uncertainty and noise in user interests influence the existence of feedback loops. First, we show that an unbiased additive random noise in user interests does not prevent a feedback loop. Second, we demonstrate that a non-zero probability of resetting user interests is sufficient to limit the feedback loop and estimate the size of the effect. Our experiments confirm the theoretical findings in a simulated environment for four bandit algorithms.
翻訳日:2021-09-14 15:15:24 公開日:2021-09-11
# HyP-ABC:進化的最適化を用いた新しいハイパーパラメータチューニングアルゴリズム

HyP-ABC: A Novel Automated Hyper-Parameter Tuning Algorithm Using Evolutionary Optimization ( http://arxiv.org/abs/2109.05319v1 )

ライセンス: Link先を確認
Leila Zahedi, Farid Ghareh Mohammadi, M. Hadi Amini(参考訳) 機械学習技術は、幅広いアプリケーションで有望な意思決定と分析ツールとして役立ちます。 異なるMLアルゴリズムは様々なハイパーパラメータを持つ。 mlモデルを特定のアプリケーションに向けて調整するには、多数のハイパーパラメータを調整する必要がある。 ハイパーパラメータのチューニングは、パフォーマンス(正確性と実行時間)に直接影響します。 しかし、大規模な探索空間では、ハイパーパラメータの組み合わせを効率的に探索することは困難である。 既存の自動ハイパーパラメータチューニング技術は、高い時間の複雑さに苦しむ。 本稿では,改良型人工蜂コロニーを用いた自動ハイブリッドハイパーパラメータ最適化アルゴリズムhyp-abcを提案し,ランダムフォレスト,極勾配ブースティング,サポートベクターマシンの3つのmlアルゴリズムの分類精度を測定した。 最先端技術と比較して、HyP-ABCはより効率的であり、調整すべきパラメータが限られており、現実世界のハイパーパラメータ最適化問題に価値がある。 提案するhyp-abcアルゴリズムを最先端技術と比較する。 提案手法のロバスト性を確保するため,提案アルゴリズムは広範に実現可能なハイパーパラメータ値を取り,実世界の教育データセットを用いて検証する。

Machine learning techniques lend themselves as promising decision-making and analytic tools in a wide range of applications. Different ML algorithms have various hyper-parameters. In order to tailor an ML model towards a specific application, a large number of hyper-parameters should be tuned. Tuning the hyper-parameters directly affects the performance (accuracy and run-time). However, for large-scale search spaces, efficiently exploring the ample number of combinations of hyper-parameters is computationally challenging. Existing automated hyper-parameter tuning techniques suffer from high time complexity. In this paper, we propose HyP-ABC, an automatic innovative hybrid hyper-parameter optimization algorithm using the modified artificial bee colony approach, to measure the classification accuracy of three ML algorithms, namely random forest, extreme gradient boosting, and support vector machine. Compared to the state-of-the-art techniques, HyP-ABC is more efficient and has a limited number of parameters to be tuned, making it worthwhile for real-world hyper-parameter optimization problems. We further compare our proposed HyP-ABC algorithm with state-of-the-art techniques. In order to ensure the robustness of the proposed method, the algorithm takes a wide range of feasible hyper-parameter values, and is tested using a real-world educational dataset.
翻訳日:2021-09-14 15:15:13 公開日:2021-09-11
# データ駆動モデリングのための非線形ダイナミクスの構造保存スパース同定

Structure-preserving Sparse Identification of Nonlinear Dynamics for Data-driven Modeling ( http://arxiv.org/abs/2109.05364v1 )

ライセンス: Link先を確認
Kookjin Lee, Nathaniel Trask, Panos Stinis(参考訳) データからの力学系の発見はデータ駆動モデリングの基礎となり、最近では構造保存幾何学的な視点が予測、安定性、物理的実現可能性の保証を改善することが示されている。 本稿では、非線形ダイナミクス(SINDy)のスパース同定とニューラル常微分方程式の結合について述べる。 結果として得られるフレームワークは、"ブラックボックス"のダイナミクスの学習と、可逆性と不可逆両方のダイナミクスのためのブラケット形式を保存する構造の学習を可能にする。 カオスシステムを含む,有効性と構造保存性を示すベンチマークスイートを提案する。

Discovery of dynamical systems from data forms the foundation for data-driven modeling and recently, structure-preserving geometric perspectives have been shown to provide improved forecasting, stability, and physical realizability guarantees. We present here a unification of the Sparse Identification of Nonlinear Dynamics (SINDy) formalism with neural ordinary differential equations. The resulting framework allows learning of both "black-box" dynamics and learning of structure preserving bracket formalisms for both reversible and irreversible dynamics. We present a suite of benchmarks demonstrating effectiveness and structure preservation, including for chaotic systems.
翻訳日:2021-09-14 15:14:45 公開日:2021-09-11
# テーブル理解を実践する

Making Table Understanding Work in Practice ( http://arxiv.org/abs/2109.05173v1 )

ライセンス: Link先を確認
Madelon Hulsebos and Sneha Gathani and James Gale and Isil Dillig and Paul Groth and \c{C}a\u{g}atay Demiralp(参考訳) 大規模なテーブルの意味を理解することは、データ統合、準備、検索といったタスクに不可欠です。 テーブル理解方法は、テーブルのトピック、セマンティックカラムタイプ、列関係、エンティティを検出することを目的としています。 ディープラーニングの台頭に伴い、これらのタスクのための強力なモデルが開発され、ベンチマークの精度は良好である。 しかし、これらのモデルの性能と実際の適用性との間にはギャップがあることを観察する。 この論文では、これらのモデルが実際に機能するためには、何が必要なのか? テーブル理解モデルのデプロイに関する3つの課題を議論し,それに対処するフレームワークを提案する。 これらの課題には 1)特定のドメインにモデルをカスタマイズすることの難しさ。 2)企業でよく見られる典型的なデータベース表のトレーニングデータの欠如 3)モデルによる推論に対する信頼の欠如。 本稿では,このフレームワークをセマンティクスカラム型検出タスクに実装したsigmatyperを提案する。 SigmaTyperはGitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズする。 最後に、テーブル理解を実践に有効にするためのギャップをさらに埋める将来の研究の道のりを強調した。

Understanding the semantics of tables at scale is crucial for tasks like data integration, preparation, and search. Table understanding methods aim at detecting a table's topic, semantic column types, column relations, or entities. With the rise of deep learning, powerful models have been developed for these tasks with excellent accuracy on benchmarks. However, we observe that there exists a gap between the performance of these models on these benchmarks and their applicability in practice. In this paper, we address the question: what do we need for these models to work in practice? We discuss three challenges of deploying table understanding models and propose a framework to address them. These challenges include 1) difficulty in customizing models to specific domains, 2) lack of training data for typical database tables often found in enterprises, and 3) lack of confidence in the inferences made by models. We present SigmaTyper which implements this framework for the semantic column type detection task. SigmaTyper encapsulates a hybrid model trained on GitTables and integrates a lightweight human-in-the-loop approach to customize the model. Lastly, we highlight avenues for future research that further close the gap towards making table understanding effective in practice.
翻訳日:2021-09-14 15:10:44 公開日:2021-09-11
# データ分離性に関する新しい本質的尺度

A Novel Intrinsic Measure of Data Separability ( http://arxiv.org/abs/2109.05180v1 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) 機械学習では、分類器の性能は分類器モデルとデータセットの分離性と複雑さの両方に依存する。 データセットの分離性を定量的に測定するために、分類子モデルとは独立した距離ベース分離性指標(dsi)という本質的な尺度を作成する。 我々は、異なるデータクラスが同じ分布で混合される状況が、分類器が分離するのが最も困難であると考えている。 すると、dsiはデータセットの分布が任意の次元に対して同一であるかどうかを示すことができる。 そして,DSIを,合成データセットと実データを用いたいくつかの最先端の分離性/複雑度尺度と比較することにより,効果的な分離性尺度として検証する。 dsiがサンプルの分布を比較する能力を示した結果,gans(generative adversarial network)の性能測定やクラスタリング手法の結果評価など,他の有望な応用についても論じた。

In machine learning, the performance of a classifier depends on both the classifier model and the separability/complex ity of datasets. To quantitatively measure the separability of datasets, we create an intrinsic measure -- the Distance-based Separability Index (DSI), which is independent of the classifier model. We consider the situation in which different classes of data are mixed in the same distribution to be the most difficult for classifiers to separate. We then formally show that the DSI can indicate whether the distributions of datasets are identical for any dimensionality. And we verify the DSI to be an effective separability measure by comparing to several state-of-the-art separability/complex ity measures using synthetic and real datasets. Having demonstrated the DSI's ability to compare distributions of samples, we also discuss some of its other promising applications, such as measuring the performance of generative adversarial networks (GANs) and evaluating the results of clustering methods.
翻訳日:2021-09-14 15:10:28 公開日:2021-09-11
# 2-in-1accelerator: 逆ロバスト性と効率の両立のためのランダム精度スイッチの実現

2-in-1 Accelerator: Enabling Random Precision Switch for Winning Both Adversarial Robustness and Efficiency ( http://arxiv.org/abs/2109.05223v1 )

ライセンス: Link先を確認
Yonggan Fu, Yang Zhao, Qixuan Yu, Chaojian Li, Yingyan Lin(参考訳) 近年のディープニューラルネットワーク(DNN)のブレークスルーと、何十億ものモノのインターネット(IoT)デバイスが出現し、ドメイン固有のDNNアクセラレーターを備えたインテリジェントIoTデバイスに対する爆発的な需要が高まっている。 しかし、DNNアクセラレーターが現実世界のIoTデバイスにインテリジェントな機能をデプロイすることは、依然として特に難しい。 第一に、強力なDNNは、しばしば禁止的な複雑さに直面するが、IoTデバイスは、厳しいリソース制約に悩まされることが多い。 第二に、DNNは、特に複雑な現実世界環境に露出するIoTデバイスに対する敵攻撃に対して脆弱であるが、多くのIoTアプリケーションは厳格なセキュリティを必要とする。 既存のDNNアクセラレーターは、上記の2つの課題のうちの1つ(効率性または敵の堅牢性)に対処しつつ、一方を無視または犠牲にしている。 そこで本研究では,DNN加速器の対向ロバスト性と効率性を両立することを目的とした2-in-1加速器を提案する。 具体的には,DNNの量子化をin-situモデルスイッチとして実現することにより,DNNを敵攻撃から効果的に防御できるランダム精度スイッチ(RPS)アルゴリズムを提案する。 さらに,(1)時間的MACユニットを空間的にタイル状に固定し,達成可能な効率と柔軟性を両立させる新しい高精度MACユニットアーキテクチャ,(2)汎用アクセラレーターオプティマイザによって探索される体系的に最適化されたデータフローを提案する。 我々の2-in-1加速器は、様々な攻撃下でのDNN加速器の対向的堅牢性と効率の両方を積極的に向上できるだけでなく、DNN再訓練を必要とせず、様々な資源に適応する即時的堅牢性と効率のトレードオフを自然に支援できる。

The recent breakthroughs of deep neural networks (DNNs) and the advent of billions of Internet of Things (IoT) devices have excited an explosive demand for intelligent IoT devices equipped with domain-specific DNN accelerators. However, the deployment of DNN accelerator enabled intelligent functionality into real-world IoT devices still remains particularly challenging. First, powerful DNNs often come at prohibitive complexities, whereas IoT devices often suffer from stringent resource constraints. Second, while DNNs are vulnerable to adversarial attacks especially on IoT devices exposed to complex real-world environments, many IoT applications require strict security. Existing DNN accelerators mostly tackle only one of the two aforementioned challenges (i.e., efficiency or adversarial robustness) while neglecting or even sacrificing the other. To this end, we propose a 2-in-1 Accelerator, an integrated algorithm-accelerato r co-design framework aiming at winning both the adversarial robustness and efficiency of DNN accelerators. Specifically, we first propose a Random Precision Switch (RPS) algorithm that can effectively defend DNNs against adversarial attacks by enabling random DNN quantization as an in-situ model switch. Furthermore, we propose a new precision-scalable accelerator featuring (1) a new precision-scalable MAC unit architecture which spatially tiles the temporal MAC units to boost both the achievable efficiency and flexibility and (2) a systematically optimized dataflow that is searched by our generic accelerator optimizer. Extensive experiments and ablation studies validate that our 2-in-1 Accelerator can not only aggressively boost both the adversarial robustness and efficiency of DNN accelerators under various attacks, but also naturally support instantaneous robustness-efficienc y trade-offs adapting to varied resources without the necessity of DNN retraining.
翻訳日:2021-09-14 15:10:10 公開日:2021-09-11
# MLReal: 機械学習における合成データトレーニングと実データアプリケーションとのギャップを埋める

MLReal: Bridging the gap between training on synthetic data and real data applications in machine learning ( http://arxiv.org/abs/2109.05294v1 )

ライセンス: Link先を確認
Tariq Alkhalifah, Hanchen Wang, Oleg Ovcharenko(参考訳) 波形データ(地震、電磁、超音波)でトレーニングされたニューラルネットワークを活用する上で私たちが直面する最大の課題は、実データへの応用です。 正確なラベルの要件は、ラベルが容易に利用できる合成データを使ったソリューションの開発を迫られる。 しかし、合成データはフィールド/実実験の現実を捉えないことが多く、推論段階で訓練されたニューラルネットワーク(nn)の性能が低下する結果となる。 本稿では,実際のデータ特徴(ドメイン適応)を持つ合成データの教師付きトレーニングを強化する新しい手法について述べる。 具体的には、入力データの垂直軸(時間または深さ)の絶対値が分類のように重要でないタスクや、ウェルログを用いた速度モデル構築のような後続修正が可能なタスクに対して、トレーニングとアプリケーションデータに類似した分布を持つように、一連の線形演算を提案する。 これは入力データの2つの操作をnnモデルに適用することで実現される。 1)入力データ(ショット収集、地震画像等)と同一データセットからの固定基準トレースとの相互相関。 2)結果データと、他のドメインからの自己相関データの平均値(またはランダムサンプル)との畳み込み。 トレーニング段階では、入力データは合成ドメインからであり、自動相関データは実ドメインからであり、実データからのランダムサンプルは訓練期間毎に描画される。 推論/アプリケーション段階では、入力データは実際のサブセットドメインから、自己相関セクションの平均は合成データサブセットドメインからのものである。 マイクロ地震発生源位置決定のための受動的地震データと低周波予測のためのアクティブ地震データを用いた例を用いて, 実データへの適用性向上におけるこのアプローチの有効性を実証する。

Among the biggest challenges we face in utilizing neural networks trained on waveform data (i.e., seismic, electromagnetic, or ultrasound) is its application to real data. The requirement for accurate labels forces us to develop solutions using synthetic data, where labels are readily available. However, synthetic data often do not capture the reality of the field/real experiment, and we end up with poor performance of the trained neural network (NN) at the inference stage. We describe a novel approach to enhance supervised training on synthetic data with real data features (domain adaptation). Specifically, for tasks in which the absolute values of the vertical axis (time or depth) of the input data are not crucial, like classification, or can be corrected afterward, like velocity model building using a well-log, we suggest a series of linear operations on the input so the training and application data have similar distributions. This is accomplished by applying two operations on the input data to the NN model: 1) The crosscorrelation of the input data (i.e., shot gather, seismic image, etc.) with a fixed reference trace from the same dataset. 2) The convolution of the resulting data with the mean (or a random sample) of the autocorrelated data from another domain. In the training stage, the input data are from the synthetic domain and the auto-correlated data are from the real domain, and random samples from real data are drawn at every training epoch. In the inference/applicatio n stage, the input data are from the real subset domain and the mean of the autocorrelated sections are from the synthetic data subset domain. Example applications on passive seismic data for microseismic event source location determination and active seismic data for predicting low frequencies are used to demonstrate the power of this approach in improving the applicability of trained models to real data.
翻訳日:2021-09-14 15:09:38 公開日:2021-09-11