このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200404となっている論文です。

PDF登録状況(公開日: 20200404)

TitleAuthorsAbstract論文公表日・翻訳日
# 非可逆量子進化のための単純な遊び場としての1粒子近似

One-particle approximation as a simple playground for irreversible quantum evolution ( http://arxiv.org/abs/1912.13123v2 )

ライセンス: Link先を確認
A.E. Teretenkov(参考訳) 1粒子近似において物理系で生じるモデルの量子情報特徴と可逆的量子進化について論じる。 その結果, この場合, 還元密度行列の計算と絡み合い解析が大幅に簡略化された。 1粒子近似におけるgorini--kossakowski-sudarshan-lindblad方程式によって記述される可逆量子進化は、散逸生成子を持つシュレッディンガー方程式の解によって定義できる。 これは一方の面における初期方程式の解を単純化し、もう一方の面に非エルミートハミルトニアンを持つシュレッディンガー方程式の物理的解釈を与える。

Both quantum information features and irreversible quantum evolution of the models arising in physical systems in one-particle approximation are discussed. It is shown that the calculation of the reduced density matrix and entanglement analysis are considerably simplified in this case. The irreversible quantum evolution described by Gorini--Kossakowski--Sudarshan--Lindblad equations in the one-particle approximation could be defined by a solution of a Shroedinger equation with a dissipative generator. It simplifies the solution of the initial equation on the one side and gives a physical interpretation of such a Shroedinger equation with non-Hermitian Hamiltonian on the other side.
翻訳日:2023-01-16 21:00:56 公開日:2020-04-04
# サニャック干渉計と重力の量子的性質

Sagnac Interferometer and the Quantum Nature of Gravity ( http://arxiv.org/abs/2001.02777v3 )

ライセンス: Link先を確認
Chiara Marletto, Vlatko Vedral(参考訳) 我々は、サニャック干渉計の量子変種を用いて重力の量子の性質を議論し、同値原理の量子版を定式化する。 まず,従来の sagnac matter-wave interferometer で取得した位相をハミルトニアン形式で導出する。 次に、干渉計を2つの重要な点で修正する。 干渉物質波は中心から2つの異なる距離に沿って干渉され、干渉計は2つの異なる角速度の重ね合わせで準備される。 この実験により、物質波の半径と角度の自由度が絡み合うと、同値原理により重力場は古典的でないことが議論される。

We use a quantum variant of the Sagnac interferometer to argue for the quantum nature of gravity as well as to formulate a quantum version of the equivalence principle. We first present an original derivation of the phase acquired in the conventional Sagnac matter-wave interferometer, within the Hamiltonian formalism. Then we modify the interferometer in two crucial respects. The interfering matter wave is interfered along two different distances from the centre and the interferometer is prepared in a superposition of two different angular velocities. We argue that if the radial and angular degrees of freedom of the matter wave become entangled through this experiment, then, via the equivalence principle, the gravitational field must be non-classical.
翻訳日:2023-01-13 12:49:15 公開日:2020-04-04
# ストリーミングアノテーションによるトレーニング

Training with Streaming Annotation ( http://arxiv.org/abs/2002.04165v2 )

ライセンス: Link先を確認
Tongtao Zhang, Heng Ji, Shih-Fu Chang, Marjorie Freedman(参考訳) 本稿では,トレーニングデータを小規模バッチのシーケンスでリリースし,初期フェーズにおけるアノテーションが後フェーズよりも品質が低い,という現実的なシナリオに対処する。 そこで本研究では,事前学習したトランスフォーマネットワークを用いて,先行バッチの文書情報を保存・統合し,現在のバッチからのアノテーション(おそらくは高品質)に注目する。 ケーススタディとしてイベント抽出を用いて,提案手法が従来の手法よりも優れた性能(改良は3.6~14.9%の絶対Fスコアゲイン)を示す実験を行った。

In this paper, we address a practical scenario where training data is released in a sequence of small-scale batches and annotation in earlier phases has lower quality than the later counterparts. To tackle the situation, we utilize a pre-trained transformer network to preserve and integrate the most salient document information from the earlier batches while focusing on the annotation (presumably with higher quality) from the current batch. Using event extraction as a case study, we demonstrate in the experiments that our proposed framework can perform better than conventional approaches (the improvement ranges from 3.6 to 14.9% absolute F-score gain), especially when there is more noise in the early annotation; and our approach spares 19.1% time with regard to the best conventional method.
翻訳日:2023-01-02 02:11:57 公開日:2020-04-04
# 深層学習と修正csr-dcfを用いた位相コントラスト顕微鏡画像の精子検出と追跡

Sperm Detection and Tracking in Phase-Contrast Microscopy Image Sequences using Deep Learning and Modified CSR-DCF ( http://arxiv.org/abs/2002.04034v4 )

ライセンス: Link先を確認
Mohammad reza Mohammadi, Mohammad Rahimzadeh and Abolfazl Attar(参考訳) 近年、コンピュータ支援精子分析システム(CASA)は、ヒトの精子の特徴を抽出し、ヒトの受精率を測定している。 精子の特徴分析の最初のステップは、ビデオサンプルのフレームにおける精子の検出である。 本稿では,物体検出器として深部完全畳み込みニューラルネットワークであるRetinaNetを用いた。 精子は少数の属性を持つ小さな物体であり、高密度のサンプル、特に精子の頭のような精液中に他の粒子が存在する場合、検出がより困難になる。 精子の主な特性の1つは運動であるが、この特性は1つのフレームだけがネットワークに供給されるときに抽出できない。 精子検出ネットワークの性能を向上させるため,ネットワークの入力として使用する連続したフレームを連結した。 この方法により運動特性も抽出され,さらに深部畳み込みネットワークの助けを借りて,精子検出の精度が向上した。 第2のステップは精子を追跡することで、精子の受精やその他の研究に不可欠な運動パラメータを抽出する。 追跡フェーズでは、CSR-DCFアルゴリズムを変更する。 また、高密度精子サンプル、オクルージョン、精子衝突、および精子がフレームから出て次のフレームに再突入した場合においても、精子追跡の優れた結果を示す。 検出フェーズの平均精度は99.1%であり、追跡方法の評価のF1スコアは96.61%である。 これらの結果は精子の行動の研究や受精の可能性の分析に大いに役立ちます。

Nowadays, computer-aided sperm analysis (CASA) systems have made a big leap in extracting the characteristics of spermatozoa for studies or measuring human fertility. The first step in sperm characteristics analysis is sperm detection in the frames of the video sample. In this article, we used RetinaNet, a deep fully convolutional neural network as the object detector. Sperms are small objects with few attributes, that makes the detection more difficult in high-density samples and especially when there are other particles in semen, which could be like sperm heads. One of the main attributes of sperms is their movement, but this attribute cannot be extracted when only one frame would be fed to the network. To improve the performance of the sperm detection network, we concatenated some consecutive frames to use as the input of the network. With this method, the motility attribute has also been extracted, and then with the help of the deep convolutional network, we have achieved high accuracy in sperm detection. The second step is tracking the sperms, for extracting the motility parameters that are essential for indicating fertility and other studies on sperms. In the tracking phase, we modify the CSR-DCF algorithm. This method also has shown excellent results in sperm tracking even in high-density sperm samples, occlusions, sperm colliding, and when sperms exit from a frame and re-enter in the next frames. The average precision of the detection phase is 99.1%, and the F1 score of the tracking method evaluation is 96.61%. These results can be a great help in studies investigating sperm behavior and analyzing fertility possibility.
翻訳日:2023-01-02 02:03:13 公開日:2020-04-04
# 解釈解釈:基準による帰属方法の整理

Interpreting Interpretations: Organizing Attribution Methods by Criteria ( http://arxiv.org/abs/2002.07985v2 )

ライセンス: Link先を確認
Zifan Wang and Piotr Mardziel and Anupam Datta and Matt Fredrikson(参考訳) 個別の基準によって動機づけられているが、深層学習を解釈するための帰属法が増えている。 それぞれが「重要」の概念の解釈可能性とパターンを視覚化する能力に依存しているが、手法によって生み出された説明はしばしば異なっている。 結果として、視覚モデルの入力帰属は、モデルの振る舞いに対する人間の理解のいかなるレベルも提供できない。 本研究は,「重要」を超えて帰属を解釈できる人間理解可能な概念の基礎を広げ,必然性と十分性という論理的概念と比例性の概念を取り入れたものである。 我々はこれらの概念を属性の定量的側面として表現するために計量を定義する。 これにより、異なる方法で生成された属性を比較して、それらを斬新な方法で解釈することができる。この属性(またはこの方法)は、強調された入力の必要性や十分さをどの程度表現し、どの程度に比例するか? 画像分類のための畳み込みニューラルネットワーク(cnn)を説明する手法の集合について評価した。 いくつかの帰属法は必然性の観点からは解釈に適しており、他の方法は十分である一方、どちらの方法も必ずしも両面で最も適していないと結論付けている。

Motivated by distinct, though related, criteria, a growing number of attribution methods have been developed tointerprete deep learning. While each relies on the interpretability of the concept of "importance" and our ability to visualize patterns, explanations produced by the methods often differ. As a result, input attribution for vision models fail to provide any level of human understanding of model behaviour. In this work we expand the foundationsof human-understandable concepts with which attributionscan be interpreted beyond "importance" and its visualization; we incorporate the logical concepts of necessity andsufficiency, and the concept of proportionality. We definemetrics to represent these concepts as quantitative aspectsof an attribution. This allows us to compare attributionsproduced by different methods and interpret them in novelways: to what extent does this attribution (or this method)represent the necessity or sufficiency of the highlighted inputs, and to what extent is it proportional? We evaluate our measures on a collection of methods explaining convolutional neural networks (CNN) for image classification. We conclude that some attribution methods are more appropriate for interpretation in terms of necessity while others are in terms of sufficiency, while no method is always the most appropriate in terms of both.
翻訳日:2022-12-30 14:04:12 公開日:2020-04-04
# ManifoldNorm:リーマン多様体上の正規化の拡張

ManifoldNorm: Extending normalizations on Riemannian Manifolds ( http://arxiv.org/abs/2003.13869v2 )

ライセンス: Link先を確認
Rudrasis Chakraborty(参考訳) コンピュータビジョンと機械学習における多くの測定は、非ユークリッドデータサンプルとして表される。 数人の研究者が最近、多様体値データサンプルのためのディープニューラルネットワークアーキテクチャを拡張した。 拡散テンソルイメージング(DTI)では画像が3-times 3$ symmetric positive definite matrices (ODF) のフィールドである場合や、超球面上のフィールドである場合の方向分布場 (ODF) の表現の場合など、医用画像処理で一般的な多様体値空間データのモデルが提案されている。 近年,神経変性疾患の研究において,群差解析に有効であることが報告されている。 これらの手法のいくつかは、多様体値データを扱うのに有効であるが、ボトルネックにはより深いネットワークの最適化の不安定性が含まれる。 これらの不安定性に対処するため、研究者は多様体値データの残差接続を提案した。 勾配爆発を含む不安定性に対処する他の方法の1つは、標準化技法として {\it batch norm} や {\it group norm} などを用いることである。 しかし、今のところ、多様体値データに適用できる正規化技術はない。 本研究では,多様体値データに対する一般正規化手法を提案する。 提案手法は, 一般的なバッチノルムやグループノルムを含む特殊な場合を持つことを示す。 実験では、対称正定値行列の多様体と超球面を含む2種類の多様体値データに注目した。 我々は、MNISTデータセットを移動させる1つの合成実験と、その表現が向き分布場(ODF)で表される1つの実脳画像データセットにおいて、性能向上を示す。

Many measurements in computer vision and machine learning manifest as non-Euclidean data samples. Several researchers recently extended a number of deep neural network architectures for manifold valued data samples. Researchers have proposed models for manifold valued spatial data which are common in medical image processing including processing of diffusion tensor imaging (DTI) where images are fields of $3\times 3$ symmetric positive definite matrices or representation in terms of orientation distribution field (ODF) where the identification is in terms of field on hypersphere. There are other sequential models for manifold valued data that recently researchers have shown to be effective for group difference analysis in study for neuro-degenerative diseases. Although, several of these methods are effective to deal with manifold valued data, the bottleneck includes the instability in optimization for deeper networks. In order to deal with these instabilities, researchers have proposed residual connections for manifold valued data. One of the other remedies to deal with the instabilities including gradient explosion is to use normalization techniques including {\it batch norm} and {\it group norm} etc.. But, so far there is no normalization techniques applicable for manifold valued data. In this work, we propose a general normalization techniques for manifold valued data. We show that our proposed manifold normalization technique have special cases including popular batch norm and group norm techniques. On the experimental side, we focus on two types of manifold valued data including manifold of symmetric positive definite matrices and hypersphere. We show the performance gain in one synthetic experiment for moving MNIST dataset and one real brain image dataset where the representation is in terms of orientation distribution field (ODF).
翻訳日:2022-12-18 06:48:49 公開日:2020-04-04
# 反射schr\"odinger bridge:経路制約による密度制御

Reflected Schr\"odinger Bridge: Density Control with Path Constraints ( http://arxiv.org/abs/2003.13895v2 )

ライセンス: Link先を確認
Kenneth F. Caluya, and Abhishek Halder(参考訳) 有限地平線上のある結合状態確率密度関数を、ハード状態(サンプルパス)制約のある制御された確率力学にどのように作用させるか? アプリケーションでは、状態制約は障害回避などの安全要件を符号化することができる。 本稿では, 状態制約を受ける最小制御努力密度ステアリング問題 (a.k. a. schr\"{o}dinger bridge) に対するフィードバック合成を行う。 我々はSchr\"{o}dinger Bridgesの理論を拡張し、サンプルパスの反射境界条件を考慮し、近位再帰に関するこれまでの研究に基づいて計算フレームワークを構築し、それを解決する。

How to steer a given joint state probability density function to another over finite horizon subject to a controlled stochastic dynamics with hard state (sample path) constraints? In applications, state constraints may encode safety requirements such as obstacle avoidance. In this paper, we perform the feedback synthesis for minimum control effort density steering (a.k.a. Schr\"{o}dinger bridge) problem subject to state constraints. We extend the theory of Schr\"{o}dinger bridges to account the reflecting boundary conditions for the sample paths, and provide a computational framework building on our previous work on proximal recursions, to solve the same.
翻訳日:2022-12-18 02:05:41 公開日:2020-04-04
# 欠席シナリオにおける地図強調エゴレーン検出

Map-Enhanced Ego-Lane Detection in the Missing Feature Scenarios ( http://arxiv.org/abs/2004.01101v2 )

ライセンス: Link先を確認
Xiaoliang Wang, Yeqiang Qian, Chunxiang Wang, and Ming Yang(参考訳) 自律走行システムにおける最も重要なタスクの1つとして、エゴレーン検出が広く研究され、多くのシナリオにおいて目覚ましい成果を上げている。 しかし、機能不足のシナリオにおけるego-lane検出は未解決の問題である。 この問題に対処するため、従来の手法はより複雑な特徴抽出アルゴリズムを提案してきたが、非常に時間がかかり、極端なシナリオには対処できない。 他と異なり,本論文では,検出アルゴリズムの性能向上に優れた,デジタルマップに含まれる事前知識を活用している。 具体的には,OpenStreetMapから抽出した道路形状をレーンモデルとし,実際の車線形状と高い整合性を持ち,車線特性とは無関係であることを示す。 このようにして、路面形状と実車線の位置誤差を除去するためには、少数の車線特徴しか必要とせず、探索に基づく最適化アルゴリズムが提案されている。 実験の結果,提案手法は様々なシナリオに適用可能であり,20Hzの周波数でリアルタイムに動作可能であることがわかった。 同時に,提案手法を公開kitti laneデータセット上で評価し,最新性能を得た。 さらに、コードは公開後にオープンソースになります。

As one of the most important tasks in autonomous driving systems, ego-lane detection has been extensively studied and has achieved impressive results in many scenarios. However, ego-lane detection in the missing feature scenarios is still an unsolved problem. To address this problem, previous methods have been devoted to proposing more complicated feature extraction algorithms, but they are very time-consuming and cannot deal with extreme scenarios. Different from others, this paper exploits prior knowledge contained in digital maps, which has a strong capability to enhance the performance of detection algorithms. Specifically, we employ the road shape extracted from OpenStreetMap as lane model, which is highly consistent with the real lane shape and irrelevant to lane features. In this way, only a few lane features are needed to eliminate the position error between the road shape and the real lane, and a search-based optimization algorithm is proposed. Experiments show that the proposed method can be applied to various scenarios and can run in real-time at a frequency of 20 Hz. At the same time, we evaluated the proposed method on the public KITTI Lane dataset where it achieves state-of-the-art performance. Moreover, our code will be open source after publication.
翻訳日:2022-12-17 12:57:30 公開日:2020-04-04
# プライバシーのシャドウ:時間とともにノードの予測可能性とプライバシーを測定する

Privacy Shadow: Measuring Node Predictability and Privacy Over Time ( http://arxiv.org/abs/2004.02047v1 )

ライセンス: Link先を確認
Ivan Brugere, Tanya y. Berger-Wolf(参考訳) ネットワークデータの構造により、単純な予測モデルでは、ノード間の局所的相関を利用して属性やリンク予測といったタスクの精度を高めることができる。 これはより良いユーザーモデルを構築するのに役立ちますが、アプリケーションを離れた後、ユーザのデータがネットワーク構造から再推論される可能性があるというプライバシーの懸念をもたらします。 ネットワーク内の任意の時間からユーザがいつまで予測されるかを測定するために,プライバシシャドウを提案する。 さらに,3つの実世界のデータセットにおいて,個々のユーザに対してプライバシシャドーの長さを予測できることを実証する。

The structure of network data enables simple predictive models to leverage local correlations between nodes to high accuracy on tasks such as attribute and link prediction. While this is useful for building better user models, it introduces the privacy concern that a user's data may be re-inferred from the network structure, after they leave the application. We propose the privacy shadow for measuring how long a user remains predictive from an arbitrary time within the network. Furthermore, we demonstrate that the length of the privacy shadow can be predicted for individual users in three real-world datasets.
翻訳日:2022-12-16 23:29:48 公開日:2020-04-04
# 3次元医用画像分割・検出のためのボリュームセンテンス

Volumetric Attention for 3D Medical Image Segmentation and Detection ( http://arxiv.org/abs/2004.01997v1 )

ライセンス: Link先を確認
Xudong Wang, Shizhong Han, Yunqiang Chen, Dashan Gao, and Nuno Vasconcelos(参考訳) 3次元医用画像のセグメンテーションと検出のためのボリュームアテンション(VA)モジュールを提案する。 VAアテンションは、ビデオ処理の最近の進歩に触発され、2.5Dネットワークは、z方向に沿ったコンテキスト情報を活用することができ、トレーニングデータに制限がある場合の事前訓練された2D検出モデルの使用を可能にする。 そのMask R-CNNへの統合は、Liver tumor Segmentation (LiTS) Challengeにおける最先端のパフォーマンスを可能にし、以前のチャレンジの勝者を3.9ポイント上回り、論文提出時にLiTSのリーダーボードで最高パフォーマンスを達成した。 DeepLesionデータセットによる検出実験では、既存の物体検出器へのVAの追加により、画像当たり0.5偽陽性で69.1感度が得られ、最も優れた結果の6.6ポイントを上回った。

A volumetric attention(VA) module for 3D medical image segmentation and detection is proposed. VA attention is inspired by recent advances in video processing, enables 2.5D networks to leverage context information along the z direction, and allows the use of pretrained 2D detection models when training data is limited, as is often the case for medical applications. Its integration in the Mask R-CNN is shown to enable state-of-the-art performance on the Liver Tumor Segmentation (LiTS) Challenge, outperforming the previous challenge winner by 3.9 points and achieving top performance on the LiTS leader board at the time of paper submission. Detection experiments on the DeepLesion dataset also show that the addition of VA to existing object detectors enables a 69.1 sensitivity at 0.5 false positive per image, outperforming the best published results by 6.6 points.
翻訳日:2022-12-16 23:29:24 公開日:2020-04-04
# 脳腫瘍自動分割のための注意誘導型2次元unet

Attention-Guided Version of 2D UNet for Automatic Brain Tumor Segmentation ( http://arxiv.org/abs/2004.02009v1 )

ライセンス: Link先を確認
Mehrdad Noori, Ali Bahri and Karim Mohammadi(参考訳) グリオーマは脳腫瘍の中でも最も一般的で攻撃的であり、最高学年の寿命が短くなる。 したがって、治療評価は患者の生活の質を高めるための重要な段階である。 近年,深層畳み込みニューラルネットワーク (dcnns) は脳腫瘍の分節において著しい性能を発揮しているが, グリオーマの出現と強度の変動により, この課題はいまだに困難である。 既存の手法、特にUNetベースのネットワークは、単純な方法で低レベルと高レベルの機能を統合しており、モデルに混乱をもたらす可能性がある。 さらに、ほとんどのアプローチでは入力画像の3Dコンテキスト情報を活用するために3Dアーキテクチャを採用している。 これらのアーキテクチャは、2Dアーキテクチャよりも多くのパラメータと計算複雑性を含んでいる。 一方,2次元モデルを用いることは,入力画像の3次元文脈情報から利益を得られない。 上記の問題に対処するために,我々は2つの手法を用いた2次元unetに基づく低パラメータネットワークを設計した。 第1の手法は、低レベル特徴と高レベル特徴の連結後に採用されるアテンションメカニズムである。 この手法は各チャネルを適応的に重み付けすることでモデルの混乱を防ぐ。 第2のテクニックはマルチビュー融合である。 この手法を用いることで、2次元モデルを用いても入力画像の3次元文脈情報から恩恵を受けることができる。 実験の結果,2017年および2018年の最先端手法に対して好成績を示した。

Gliomas are the most common and aggressive among brain tumors, which cause a short life expectancy in their highest grade. Therefore, treatment assessment is a key stage to enhance the quality of the patients' lives. Recently, deep convolutional neural networks (DCNNs) have achieved a remarkable performance in brain tumor segmentation, but this task is still difficult owing to high varying intensity and appearance of gliomas. Most of the existing methods, especially UNet-based networks, integrate low-level and high-level features in a naive way, which may result in confusion for the model. Moreover, most approaches employ 3D architectures to benefit from 3D contextual information of input images. These architectures contain more parameters and computational complexity than 2D architectures. On the other hand, using 2D models causes not to benefit from 3D contextual information of input images. In order to address the mentioned issues, we design a low-parameter network based on 2D UNet in which we employ two techniques. The first technique is an attention mechanism, which is adopted after concatenation of low-level and high-level features. This technique prevents confusion for the model by weighting each of the channels adaptively. The second technique is the Multi-View Fusion. By adopting this technique, we can benefit from 3D contextual information of input images despite using a 2D model. Experimental results demonstrate that our method performs favorably against 2017 and 2018 state-of-the-art methods.
翻訳日:2022-12-16 23:29:07 公開日:2020-04-04
# 膵神経内分泌腫瘍スクリーニングのための分節法

Segmentation for Classification of Screening Pancreatic Neuroendocrine Tumors ( http://arxiv.org/abs/2004.02021v1 )

ライセンス: Link先を確認
Zhuotun Zhu, Yongyi Lu, Wei Shen, Elliot K. Fishman, Alan L. Yuille(参考訳) 本研究は,膵臓に発生する膵内分泌腫瘍群である膵神経内分泌腫瘍(pnets)を腹部ct検査にて早期に検出する包括的結果を示す。 我々の知る限りでは、このタスクは以前計算タスクとして研究されなかった。 腫瘍部位を有する放射線科医にCTボリュームを分類するためのセグメンテーションフレームワークを導入し,少なくとも多数のボクセルが腫瘍としてセグメンテーションされているかを確認した。 本手法を定量的に解析するために,動脈および静脈相のそれぞれに376ドル(約3万3000円)の症例を含む新しい腹部CTデータセットを収集し,ボキセルワイズにラベル付けし,PNETと診断された症例は228ドル(約2万2800円)で,残りの148ドル(約1万4800円)の症例は正常で,現在PNETにとって最も大きなデータセットである。 この枠組みに放射線技師の豊富な知識を組み込むため,拡張膵管も注記し,膵癌のリスクが高いと考えられた。 定量的に,このアプローチは最先端のセグメンテーションネットワークを上回り,特異度81.08\%$で89.47.%の感度を達成している。

This work presents comprehensive results to detect in the early stage the pancreatic neuroendocrine tumors (PNETs), a group of endocrine tumors arising in the pancreas, which are the second common type of pancreatic cancer, by checking the abdominal CT scans. To the best of our knowledge, this task has not been studied before as a computational task. To provide radiologists with tumor locations, we adopt a segmentation framework to classify CT volumes by checking if at least a sufficient number of voxels is segmented as tumors. To quantitatively analyze our method, we collect and voxelwisely label a new abdominal CT dataset containing $376$ cases with both arterial and venous phases available for each case, in which $228$ cases were diagnosed with PNETs while the remaining $148$ cases are normal, which is currently the largest dataset for PNETs to the best of our knowledge. In order to incorporate rich knowledge of radiologists to our framework, we annotate dilated pancreatic duct as well, which is regarded as the sign of high risk for pancreatic cancer. Quantitatively, our approach outperforms state-of-the-art segmentation networks and achieves a sensitivity of $89.47\%$ at a specificity of $81.08\%$, which indicates a potential direction to achieve a clinical impact related to cancer diagnosis by earlier tumor detection.
翻訳日:2022-12-16 23:28:45 公開日:2020-04-04
# 深部Q-ラーニングによるフォグコンピューティング支援Vehicular Networkの情報の最小化

Minimizing Age-of-Information for Fog Computing-supported Vehicular Networks with Deep Q-learning ( http://arxiv.org/abs/2004.04640v1 )

ライセンス: Link先を確認
Maohong Chen, Yong Xiao, Qiang Li and Kwang-cheng Chen(参考訳) Connected vehicular Networkは、次世代のクラウド/フォグ対応自動運転車両のキーイネーブラーの1つだ。 ほとんどのコネクテッド車載アプリケーションは頻繁なステータス更新を必要としており、車両とクラウド/フォッグサーバ間の無線リンクのパフォーマンスを評価するためのより関連する指標である。 本稿では, AoI の信頼性を保証するために, 運転経路を最適化する新しいプロアクティブかつデータ駆動方式を提案する。 特に,商用LTEネットワークを介して,クラウド/フォグサーバに接続された複数車両のキャンパスシャトルシステムの3ヶ月間の計測について報告する。 連結車両におけるAoIの実証モデルを構築し,AoIの性能に及ぼす主要要因の影響を検討した。 また,信頼度を最大化する各車両の最適走行経路を決定するための深層q-learning netwrok (dqn) ベースのアルゴリズムを提案する。 数値解析の結果,提案手法は各種サービスに対するAoI信頼度を大幅に向上させる可能性が示唆された。

Connected vehicular network is one of the key enablers for next generation cloud/fog-supported autonomous driving vehicles. Most connected vehicular applications require frequent status updates and Age of Information (AoI) is a more relevant metric to evaluate the performance of wireless links between vehicles and cloud/fog servers. This paper introduces a novel proactive and data-driven approach to optimize the driving route with a main objective of guaranteeing the confidence of AoI. In particular, we report a study on three month measurements of a multi-vehicle campus shuttle system connected to cloud/fog servers via a commercial LTE network. We establish empirical models for AoI in connected vehicles and investigate the impact of major factors on the performance of AoI. We also propose a Deep Q-Learning Netwrok (DQN)-based algorithm to decide the optimal driving route for each connected vehicle with maximized confidence level. Numerical results show that the proposed approach can lead to a significant improvement on the AoI confidence for various types of services supported.
翻訳日:2022-12-16 23:28:06 公開日:2020-04-04
# マルチモーダル感情認識のための脳波機能接続パターンの検討

Investigating EEG-Based Functional Connectivity Patterns for Multimodal Emotion Recognition ( http://arxiv.org/abs/2004.01973v1 )

ライセンス: Link先を確認
Xun Wu, Wei-Long Zheng, and Bao-Liang Lu(参考訳) 運動脳-コンピュータインタフェース(BCI)に関する豊富な研究と比較すると、感情を含む脳機能接続ネットワークが十分に研究されていないため、最近出現する感情的BCIは異なる課題を呈している。 脳波(EEG)信号に基づく感情認識に関する研究は、主に単一チャンネルに基づく特徴抽出法に依存している。 本稿では,感情関連クリティカルサブネットワーク選択アルゴリズムを提案し,脳波機能接続ネットワークの特徴である強度,クラスタリング係数,固有ベクトル中心性について検討する。 感情認識における脳波接続機能の識別能力は、SEED、SEED-V、DEAPの3つの公開感情脳波データセットで評価される。 強度特性は最良の分類性能を達成し、単一チャネル解析に基づく最先端の微分エントロピー特性を上回る。 実験の結果, 嫌悪感, 恐怖, 悲しみ, 幸福, 中立性の5つの感情に対して, 機能的接続パターンが明らかとなった。 さらに,脳波の機能的接続特徴と眼球運動や生理的信号の特徴を,深い正準相関解析を用いて組み合わせたマルチモーダル感情認識モデルを構築した。 マルチモーダル感情認識の分類精度は、SEEDデータセットでは95.08/6.42%、SEED-Vデータセットでは84.51/5.11%、DEAPデータセットでは85.34/2.90%、86.61/3.76%である。 その結果,眼球運動データを用いた脳波接続特性の相補的表現特性が示された。 さらに,18チャンネルで構築された脳ネットワークは,マルチモーダル感情認識において62チャンネルネットワークと同等の性能を示し,実シナリオにおけるBCIシステムのセットアップを容易にする。

Compared with the rich studies on the motor brain-computer interface (BCI), the recently emerging affective BCI presents distinct challenges since the brain functional connectivity networks involving emotion are not well investigated. Previous studies on emotion recognition based on electroencephalography (EEG) signals mainly rely on single-channel-based feature extraction methods. In this paper, we propose a novel emotion-relevant critical subnetwork selection algorithm and investigate three EEG functional connectivity network features: strength, clustering coefficient, and eigenvector centrality. The discrimination ability of the EEG connectivity features in emotion recognition is evaluated on three public emotion EEG datasets: SEED, SEED-V, and DEAP. The strength feature achieves the best classification performance and outperforms the state-of-the-art differential entropy feature based on single-channel analysis. The experimental results reveal that distinct functional connectivity patterns are exhibited for the five emotions of disgust, fear, sadness, happiness, and neutrality. Furthermore, we construct a multimodal emotion recognition model by combining the functional connectivity features from EEG and the features from eye movements or physiological signals using deep canonical correlation analysis. The classification accuracies of multimodal emotion recognition are 95.08/6.42% on the SEED dataset, 84.51/5.11% on the SEED-V dataset, and 85.34/2.90% and 86.61/3.76% for arousal and valence on the DEAP dataset, respectively. The results demonstrate the complementary representation properties of the EEG connectivity features with eye movement data. In addition, we find that the brain networks constructed with 18 channels achieve comparable performance with that of the 62-channel network in multimodal emotion recognition and enable easier setups for BCI systems in real scenarios.
翻訳日:2022-12-16 23:27:49 公開日:2020-04-04
# 実時間ハイブリッドシミュレーションにおける計算部分構造への機械学習手法の適用

Using Machine Learning Approach for Computational Substructure in Real-Time Hybrid Simulation ( http://arxiv.org/abs/2004.02037v1 )

ライセンス: Link先を確認
Elif Ecem Bas, Mohamed A. Moustafa, David Feil-Seifer, Janelle Blankenburg(参考訳) ハイブリッドシミュレーション(Hybrid Simulation, HS)は、計算サブストラクチャと、よく理解されたコンポーネントの数値モデルと、物理的にテストされる構造の他の部分の実験サブストラクチャを組み合わせた、広く使われている構造試験手法である。 高速hs(real-time hs)やリアルタイムhs(real-time hs)に対する1つの課題は、比較的複雑な構造の分析的部分構造と関連している。 これらの大規模なDOFの計算は、現在のハードウェア能力がすべてあっても、リアルタイムに実行できない可能性がある。 本研究では,解析的サブ構造の構造的動的挙動を表現するメタモデリング手法を提案する。 ネバダ大学リノ校(英語版)の小型hs装置を用いて地震荷重下で1階建て1階建ての同心支柱(cbf)を試験する予備実験を行った。 実験装置は、小型のブレスを実験サブストラクチャとして、分析サブストラクチャのプロトタイプフルスケールのスチールフレームと組み合わせることができる。 2つの異なる機械学習アルゴリズムを評価し、解析的サブ構造のための有効なメタモデリングソリューションを提供する。 メタモデルは、プロトタイプ鋼製フレームの純分析解から得られる利用可能なデータで訓練される。 メタモデルの開発に使用される2つのアルゴリズムは、(1)線形回帰(LR)モデルと(2)基本リカレントニューラルネットワーク(RNN)である。 メタモデルはまず、構造の純粋な分析応答に対して検証される。 次にメタモデルを用いてRTHS実験を行う。 LRモデルとRNNモデルの両方を用いたRTHS試験結果の評価を行い、これらのモデルの利点と欠点について論じる。

Hybrid simulation (HS) is a widely used structural testing method that combines a computational substructure with a numerical model for well-understood components and an experimental substructure for other parts of the structure that are physically tested. One challenge for fast HS or real-time HS (RTHS) is associated with the analytical substructures of relatively complex structures, which could have large number of degrees of freedoms (DOFs), for instance. These large DOFs computations could be hard to perform in real-time, even with the all current hardware capacities. In this study, a metamodeling technique is proposed to represent the structural dynamic behavior of the analytical substructure. A preliminary study is conducted where a one-bay one-story concentrically braced frame (CBF) is tested under earthquake loading by using a compact HS setup at the University of Nevada, Reno. The experimental setup allows for using a small-scale brace as the experimental substructure combined with a steel frame at the prototype full-scale for the analytical substructure. Two different machine learning algorithms are evaluated to provide a valid and useful metamodeling solution for analytical substructure. The metamodels are trained with the available data that is obtained from the pure analytical solution of the prototype steel frame. The two algorithms used for developing the metamodels are: (1) linear regression (LR) model, and (2) basic recurrent neural network (RNN). The metamodels are first validated against the pure analytical response of the structure. Next, RTHS experiments are conducted by using metamodels. RTHS test results using both LR and RNN models are evaluated, and the advantages and disadvantages of these models are discussed.
翻訳日:2022-12-16 23:27:19 公開日:2020-04-04
# ソフトウェア定義セキュリティサービスの動的デプロイのための方法と技術

Methods and Techniques for Dynamic Deployability of Software-Defined Security Services ( http://arxiv.org/abs/2004.02876v1 )

ライセンス: Link先を確認
Roberto Doriguzzi-Corin(参考訳) Software-Defined Networking (SDN)やNetwork Function Virtualization (NFV)といった新興技術によって実現された"ネットワークソフトウォーカライゼーション"の最近のトレンドにより、データセンタやエンタープライズネットワークのシステム管理者は、専用ハードウェアベースのミドルボックスを、サーバやエンドホスト上で動作する仮想ネットワーク機能に置き換え始めた。 この急激な変更により、先進的で柔軟なネットワークサービスのプロビジョニングが容易になり、最終的にはシステム管理者やネットワークオペレータが、サービス要件やネットワークワークロードの迅速な変更に対処できるようになる。 本論文は、高性能サーバやコモディティコンピューティングデバイス上で実行されるソフトウェアベースのネットワーク機能のセットにより、住宅およびビジネスユーザのセキュリティを提供する「ソフトウォード」ネットワークにおけるネットワークセキュリティサービスのプロビジョニングの課題を考察する。 この研究は、顧客をネットワークの脅威から保護し、同時に提供サービスの数を最大化し、収益を上げることを目的としている通信事業者の視点からアプローチされている。 具体的には、ソフトウェアベースのセキュリティサービスのリソース利用を最適化する新たな技術を提案し、顧客からのネットワークセキュリティのレベルを尊重しつつ、より多くのサービス要求に対応する可能性を高めることを目的としている。 この方向では、この論文の貢献は以下の通りである。 (i) コンピューティング及びネットワークリソースの利用を最小化するセキュリティサービスの動的プロビジョニングのソリューション (ii)ソフトウェアベースのセキュリティネットワーク機能のcpu使用量を削減するための深層学習とlinuxカーネル技術に基づく新しい手法、特にddos(distributed denial of service)攻撃に対する防御に焦点を当てた。

With the recent trend of "network softwarisation", enabled by emerging technologies such as Software-Defined Networking (SDN) and Network Function Virtualisation (NFV), system administrators of data centres and enterprise networks have started replacing dedicated hardware-based middleboxes with virtualised network functions running on servers and end hosts. This radical change has facilitated the provisioning of advanced and flexible network services, ultimately helping system administrators and network operators to cope with the rapid changes in service requirements and networking workloads. This thesis investigates the challenges of provisioning network security services in "softwarised" networks, where the security of residential and business users can be provided by means of sets of software-based network functions running on high performance servers or on commodity compute devices. The study is approached from the perspective of the telecom operator, whose goal is to protect the customers from network threats and, at the same time, maximize the number of provisioned services, and thereby revenue. Specifically, the overall aim of the research presented in this thesis is proposing novel techniques for optimising the resource usage of software-based security services, hence for increasing the chances for the operator to accommodate more service requests while respecting the desired level of network security of its customers. In this direction, the contributions of this thesis are the following: (i) a solution for the dynamic provisioning of security services that minimises the utilisation of computing and network resources, and (ii) novel methods based on Deep Learning and Linux kernel technologies for reducing the CPU usage of software-based security network functions, with specific focus on the defence against Distributed Denial of Service (DDoS) attacks.
翻訳日:2022-12-16 23:26:50 公開日:2020-04-04
# 半教師付き学習による濃霧場面の光流れ

Optical Flow in Dense Foggy Scenes using Semi-Supervised Learning ( http://arxiv.org/abs/2004.01905v1 )

ライセンス: Link先を確認
Wending Yan, Aashish Sharma, Robby T. Tan(参考訳) 濃霧のシーンでは、既存の光流法が誤っている。 これは、明るさや勾配定数などの光学的流れの基本仮定を破る濃い霧粒子によって引き起こされる劣化によるものである。 そこで本研究では,実際の霧画像を用いた半教師付き深層学習手法を提案する。 我々のネットワークはドメイン変換と光フローネットワークを一つのフレームワークに統合する。 最初は、一対の合成フォグイメージ、それに対応するクリーンなイメージ、および光学フローの接地構造が与えられ、あるトレーニングバッチで、ネットワークを教師ありの方法でトレーニングします。 その後、実際の霧画像と、互いに対応していない一対のクリーン画像(未ペア化)が与えられた後、次のトレーニングバッチで、ネットワークを教師なしでトレーニングする。 次に、合成データと実データのトレーニングを反復的に交互に行う。 実際のデータでは,そのような条件下では基盤となるものが難解であり,また,合成データで学習された知識が実際のデータテストに一般化できないような合成データトレーニングの過剰な問題を回避するためである。 ネットワークアーキテクチャ設計と合わせて,教師付き合成データトレーニングと教師なし実データトレーニングを組み合わせた新たなトレーニング戦略を提案する。 実験の結果, この手法は, 密集した霧の場面における光学的流れの推定において, 最先端の手法よりも効果的であることがわかった。

In dense foggy scenes, existing optical flow methods are erroneous. This is due to the degradation caused by dense fog particles that break the optical flow basic assumptions such as brightness and gradient constancy. To address the problem, we introduce a semi-supervised deep learning technique that employs real fog images without optical flow ground-truths in the training process. Our network integrates the domain transformation and optical flow networks in one framework. Initially, given a pair of synthetic fog images, its corresponding clean images and optical flow ground-truths, in one training batch we train our network in a supervised manner. Subsequently, given a pair of real fog images and a pair of clean images that are not corresponding to each other (unpaired), in the next training batch, we train our network in an unsupervised manner. We then alternate the training of synthetic and real data iteratively. We use real data without ground-truths, since to have ground-truths in such conditions is intractable, and also to avoid the overfitting problem of synthetic data training, where the knowledge learned on synthetic data cannot be generalized to real data testing. Together with the network architecture design, we propose a new training strategy that combines supervised synthetic-data training and unsupervised real-data training. Experimental results show that our method is effective and outperforms the state-of-the-art methods in estimating optical flow in dense foggy scenes.
翻訳日:2022-12-16 23:20:17 公開日:2020-04-04
# 野生におけるメッシュ・畳み込み手指再建術

Weakly-Supervised Mesh-Convolutional Hand Reconstruction in the Wild ( http://arxiv.org/abs/2004.01946v1 )

ライセンス: Link先を確認
Dominik Kulon, Riza Alp G\"uler, Iasonas Kokkinos, Michael Bronstein, Stefanos Zafeiriou(参考訳) 本稿では,画像エンコーダとメッシュ畳み込みデコーダからなる単眼的3次元ハンドポーズ推定のための簡易かつ効果的なネットワークアーキテクチャを提案する。 私たちは、YouTubeビデオに大規模な手の動きのデータセットを集め、弱い監督源として利用することで、ネットワークをトレーニングします。 私たちの弱い教師付きメッシュ畳み込みベースのシステムは、最先端の手法よりも優れています。 データセットと追加リソースはhttps://arielai.com/mesh_hands.com/で入手できる。

We introduce a simple and effective network architecture for monocular 3D hand pose estimation consisting of an image encoder followed by a mesh convolutional decoder that is trained through a direct 3D hand mesh reconstruction loss. We train our network by gathering a large-scale dataset of hand action in YouTube videos and use it as a source of weak supervision. Our weakly-supervised mesh convolutions-based system largely outperforms state-of-the-art methods, even halving the errors on the in the wild benchmark. The dataset and additional resources are available at https://arielai.com/mesh_hands.
翻訳日:2022-12-16 23:19:54 公開日:2020-04-04
# multi-domain disentangled representation learning によるクロスドメイン顔提示攻撃検出

Cross-domain Face Presentation Attack Detection via Multi-domain Disentangled Representation Learning ( http://arxiv.org/abs/2004.01959v1 )

ライセンス: Link先を確認
Guoqing Wang, Hu Han, Shiguang Shan and Xilin Chen(参考訳) 顔提示攻撃検出(PAD)は,顔認識システムにおいて緊急に解決すべき課題である。 従来のアプローチでは、テストとトレーニングは同じドメイン内にあると仮定するが、結果として、PADで学んだ表現はトレーニングセットの被験者に過度に適合するため、見知らぬシナリオにうまく一般化できない。 そこで本研究では,クロスドメイン顔PADのための効率的な非交叉表現学習を提案する。 提案手法は,不整合表現学習(DR-Net)とマルチドメイン学習(MD-Net)からなる。 DR-Netは1組のエンコーダを生成モデルで学習し、PAD情報特徴を主観的識別特徴から切り離すことができる。 異なるドメインから分離した機能はmd-netに供給され、最終的なクロスドメインフェイスパッドタスクでドメインに依存しない機能を学ぶ。 複数のパブリックデータセットに対する大規模な実験により、クロスドメインPADに対する提案手法の有効性が検証された。

Face presentation attack detection (PAD) has been an urgent problem to be solved in the face recognition systems. Conventional approaches usually assume the testing and training are within the same domain; as a result, they may not generalize well into unseen scenarios because the representations learned for PAD may overfit to the subjects in the training set. In light of this, we propose an efficient disentangled representation learning for cross-domain face PAD. Our approach consists of disentangled representation learning (DR-Net) and multi-domain learning (MD-Net). DR-Net learns a pair of encoders via generative models that can disentangle PAD informative features from subject discriminative features. The disentangled features from different domains are fed to MD-Net which learns domain-independent features for the final cross-domain face PAD task. Extensive experiments on several public datasets validate the effectiveness of the proposed approach for cross-domain PAD.
翻訳日:2022-12-16 23:19:42 公開日:2020-04-04
# 軽量非局所ネットワークのためのニューラルアーキテクチャ探索

Neural Architecture Search for Lightweight Non-Local Networks ( http://arxiv.org/abs/2004.01961v1 )

ライセンス: Link先を確認
Yingwei Li, Xiaojie Jin, Jieru Mei, Xiaochen Lian, Linjie Yang, Cihang Xie, Qihang Yu, Yuyin Zhou, Song Bai, Alan Yuille(参考訳) 非局所ブロック(NL)は様々な視覚タスクで広く研究されている。 しかしながら,nlブロックをモバイルニューラルネットに組み込むことは,次のような課題から,ほとんど検討されていない。 1) NLブロックは一般に計算コストが高く、計算資源が限られているアプリケーションでは適用が困難である。 2) nlブロックを移動型ニューラルネットワークに組み込むための最適な構成を見つけることはオープンな問題である。 上記の2つの障害を克服するためにAutoNLを提案する。 まず、変換操作をスキューズし、コンパクトな特徴を取り入れた軽量ノンローカ(LightNL)ブロックを提案する。 新しい設計選択により、提案するlightnlブロックは性能を犠牲にすることなく従来のlightnlブロックよりも400倍安価である。 次に,LightNLブロックの構造を学習中に微分可能なように緩和することにより,最適構成のLightNLブロックをエンドツーエンドで学習する効率的なニューラルネットワーク探索アルゴリズムを提案する。 特に、32GPU時間のみを使用して、検索されたAutoNLモデルは、典型的なモバイル設定(350M FLOPs)の下で、ImageNet上で77.7%のトップ1の精度を達成し、MobileNetV2(+5.7%)、FBNet(+2.8%)、MnasNet(+2.1%)など、これまでのモバイルモデルよりも大幅に優れていた。 コードとモデルはhttps://github.com/liyingwei/autonlで入手できる。

Non-Local (NL) blocks have been widely studied in various vision tasks. However, it has been rarely explored to embed the NL blocks in mobile neural networks, mainly due to the following challenges: 1) NL blocks generally have heavy computation cost which makes it difficult to be applied in applications where computational resources are limited, and 2) it is an open problem to discover an optimal configuration to embed NL blocks into mobile neural networks. We propose AutoNL to overcome the above two obstacles. Firstly, we propose a Lightweight Non-Local (LightNL) block by squeezing the transformation operations and incorporating compact features. With the novel design choices, the proposed LightNL block is 400x computationally cheaper} than its conventional counterpart without sacrificing the performance. Secondly, by relaxing the structure of the LightNL block to be differentiable during training, we propose an efficient neural architecture search algorithm to learn an optimal configuration of LightNL blocks in an end-to-end manner. Notably, using only 32 GPU hours, the searched AutoNL model achieves 77.7% top-1 accuracy on ImageNet under a typical mobile setting (350M FLOPs), significantly outperforming previous mobile models including MobileNetV2 (+5.7%), FBNet (+2.8%) and MnasNet (+2.1%). Code and models are available at https://github.com/LiYingwei/AutoNL.
翻訳日:2022-12-16 23:19:28 公開日:2020-04-04
# マルチソース土地被覆マッピングのための細粒度分類

Fine grained classification for multi-source land cover mapping ( http://arxiv.org/abs/2004.01963v1 )

ライセンス: Link先を確認
Yawogan Jean Eudes Gbodjo, Dino Ienco, Louise Leroux, Roberto Interdonato, Raffaelle Gaetano(参考訳) 今日では、世界的な変化に対応して農業監視システムをより良く特徴付ける必要性に関する一般的な合意がある。 タイムリーかつ正確な土地利用/土地被覆マッピングは、このビジョンを支援することができる。 本稿では,オブジェクトレベルでのマルチソース土地被覆マッピングを扱うための深層学習手法を提案する。 このアプローチは、多時間データコンテキストに特化した注意機構によって強化されたリカレントニューラルネットワークの拡張に基づいている。 さらに,土地被覆クラス内の階層的関係の下で利用可能な特定のドメイン知識を活用するために設計された新しい階層的事前学習戦略を導入する。 フランスの海外部門であるリユニオン島で実施した実験は、土地被覆マッピングのためのリモートセンシング標準アプローチと比較して、提案の意義を示している。

Nowadays, there is a general agreement on the need to better characterize agricultural monitoring systems in response to the global changes. Timely and accurate land use/land cover mapping can support this vision by providing useful information at fine scale. Here, a deep learning approach is proposed to deal with multi-source land cover mapping at object level. The approach is based on an extension of Recurrent Neural Network enriched via an attention mechanism dedicated to multi-temporal data context. Moreover, a new hierarchical pretraining strategy designed to exploit specific domain knowledge available under hierarchical relationships within land cover classes is introduced. Experiments carried out on the Reunion island - a french overseas department - demonstrate the significance of the proposal compared to remote sensing standard approaches for land cover mapping.
翻訳日:2022-12-16 23:19:04 公開日:2020-04-04
# fairs --soft focus generatorと極限点からのロバストなオブジェクトセグメンテーションに対する注意

FAIRS -- Soft Focus Generator and Attention for Robust Object Segmentation from Extreme Points ( http://arxiv.org/abs/2004.02038v1 )

ライセンス: Link先を確認
Ahmed H. Shahin, Prateek Munjal, Ling Shao, Shadab Khan(参考訳) ユーザ入力からのセマンティックセグメンテーションを積極的に研究し、データアノテーションやその他のアプリケーションに対するインタラクティブセグメンテーションを促進する。 近年の研究では、ユーザ入力のエンコードに極端点を効果的に利用できることが示されている。 極端点から生成された熱マップをRGB画像に付加し、トレーニング用モデルに入力することができる。 本研究では,ユーザの入力から極端点と補正クリックの形でオブジェクトのセグメンテーションを生成する新しいアプローチであるfairsを提案する。 本稿では,ユーザが入力する過度な点や補正的なクリックを効率的にエンコードするための新しい手法を提案する。 また、オブジェクトに優先的に参加するモデルの有効性を高めるために、デュアルアテンションモジュールを我々のアプローチと統合します。 これらの追加は、複数の大規模データセット上で、ユーザ入力から高密度オブジェクトセグメンテーションの最先端よりも大幅に改善できることを実証する。 実験により,本手法は,極端点,誘導クリック,補正クリックを原則的に組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証した。

Semantic segmentation from user inputs has been actively studied to facilitate interactive segmentation for data annotation and other applications. Recent studies have shown that extreme points can be effectively used to encode user inputs. A heat map generated from the extreme points can be appended to the RGB image and input to the model for training. In this study, we present FAIRS -- a new approach to generate object segmentation from user inputs in the form of extreme points and corrective clicks. We propose a novel approach for effectively encoding the user input from extreme points and corrective clicks, in a novel and scalable manner that allows the network to work with a variable number of clicks, including corrective clicks for output refinement. We also integrate a dual attention module with our approach to increase the efficacy of the model in preferentially attending to the objects. We demonstrate that these additions help achieve significant improvements over state-of-the-art in dense object segmentation from user inputs, on multiple large-scale datasets. Through experiments, we demonstrate our method's ability to generate high-quality training data as well as its scalability in incorporating extreme points, guiding clicks, and corrective clicks in a principled manner.
翻訳日:2022-12-16 23:18:36 公開日:2020-04-04
# 攻撃的,反復的,意図的,可視的,不均衡:サイバーいじめ分類のための改良表現

Aggressive, Repetitive, Intentional, Visible, and Imbalanced: Refining Representations for Cyberbullying Classification ( http://arxiv.org/abs/2004.01820v1 )

ライセンス: Link先を確認
Caleb Ziems, Ymir Vigfusson, Fred Morstatter(参考訳) サイバーいじめはオンラインコミュニティで広く行われている問題だ。 大規模ソーシャルネットワークにおけるサイバーいじめ事件を特定するために、コンテンツモデレーターは自動サイバーいじめ検出のための機械学習分類器に依存する。 しかし、既存のモデルは、公に利用可能なトレーニングデータの不足と、基底真理ラベルを割り当てるための標準基準の欠如により、実世界のアプリケーションには適していない。 本研究では,従来のアノテーションフレームワークを用いた信頼性データの必要性に対処する。 いじめ行為に関する社会科学研究に触発された我々は,その社会的・言語的側面を表現するために,5つの明確な要因を用いて,サイバーいじめの厄介な問題を特徴づける。 この動作をソーシャルネットワークと言語ベースの機能を用いてモデル化し,分類性能を向上させる。 これらの結果は,サイバーいじめを社会現象として表現・モデル化することの重要性を示している。

Cyberbullying is a pervasive problem in online communities. To identify cyberbullying cases in large-scale social networks, content moderators depend on machine learning classifiers for automatic cyberbullying detection. However, existing models remain unfit for real-world applications, largely due to a shortage of publicly available training data and a lack of standard criteria for assigning ground truth labels. In this study, we address the need for reliable data using an original annotation framework. Inspired by social sciences research into bullying behavior, we characterize the nuanced problem of cyberbullying using five explicit factors to represent its social and linguistic aspects. We model this behavior using social network and language-based features, which improve classifier performance. These results demonstrate the importance of representing and modeling cyberbullying as a social phenomenon.
翻訳日:2022-12-16 23:18:14 公開日:2020-04-04
# 反現実的クエリを用いた集団労働者の社会的バイアスの測定

Measuring Social Biases of Crowd Workers using Counterfactual Queries ( http://arxiv.org/abs/2004.02028v1 )

ライセンス: Link先を確認
Bhavya Ghai, Q. Vera Liao, Yunfeng Zhang, Klaus Mueller(参考訳) 性別、人種などに基づく社会バイアスは、主にバイアスドトレーニングデータセットを介して機械学習(ml)パイプラインを汚染することが示されている。 クラウドソーシング(Crowdsourcing)は、ラベル付きトレーニングデータセットを収集するための一般的な費用効果尺度であり、群衆労働者の社会的偏見に免疫がない。 このような社会的バイアスがキュレートされたデータセットに渡されないようにするためには、各群衆労働者がどれだけバイアスを受けているかを知ることが重要です。 本研究では, 集団労働者ごとの社会的バイアスの程度を定量化するための, 対実フェアネスに基づく新しい手法を提案する。 この余分な情報は、個々のワーカーレスポンスとともに活用して、バイアスの少ないデータセットをキュレートする。

Social biases based on gender, race, etc. have been shown to pollute machine learning (ML) pipeline predominantly via biased training datasets. Crowdsourcing, a popular cost-effective measure to gather labeled training datasets, is not immune to the inherent social biases of crowd workers. To ensure such social biases aren't passed onto the curated datasets, it's important to know how biased each crowd worker is. In this work, we propose a new method based on counterfactual fairness to quantify the degree of inherent social bias in each crowd worker. This extra information can be leveraged together with individual worker responses to curate a less biased dataset.
翻訳日:2022-12-16 23:17:51 公開日:2020-04-04
# エンド・ツー・エンドの感情分析のための係り受け構文知識拡張インタラクティブアーキテクチャ

A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2004.01951v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinchao Zhang, Jinan Xu, Yufeng Chen and Jie Zhou(参考訳) アスペクトベース感情分析(ABSA)タスクは、アスペクト項を抽出し、その感情指向を識別することを目的とした長年にわたる課題であり、従来のアプローチでは、自然言語の構文特性を反映した文の明示的な構文構造は、アスペクト項抽出や感情認識において直感的に不可欠であり、一般的に無視または不十分にモデル化されている。 本稿では,エンド・ツー・エンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。 このモデルは、よく設計されたDependency Relation Embedded Graph Convolutional Network (DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 さらに,マルチタスク学習フレームワークにおいて,モデルが複数の関連タスクから学習することを保証するための,シンプルかつ効果的なメッセージパッシング機構を設計した。 3つのベンチマークデータセットの大規模な実験結果から,既存の最先端手法を著しく上回るアプローチの有効性が示された。 さらに,新たな特徴抽出器としてBERTを用いることにより,さらなる改善が図られる。

The aspect-based sentiment analysis (ABSA) task remains to be a long-standing challenge, which aims to extract the aspect term and then identify its sentiment orientation.In previous approaches, the explicit syntactic structure of a sentence, which reflects the syntax properties of natural language and hence is intuitively crucial for aspect term extraction and sentiment recognition, is typically neglected or insufficiently modeled. In this paper, we thus propose a novel dependency syntactic knowledge augmented interactive architecture with multi-task learning for end-to-end ABSA. This model is capable of fully exploiting the syntactic knowledge (dependency relations and types) by leveraging a well-designed Dependency Relation Embedded Graph Convolutional Network (DreGcn). Additionally, we design a simple yet effective message-passing mechanism to ensure that our model learns from multiple related tasks in a multi-task learning framework. Extensive experimental results on three benchmark datasets demonstrate the effectiveness of our approach, which significantly outperforms existing state-of-the-art methods. Besides, we achieve further improvements by using BERT as an additional feature extractor.
翻訳日:2022-12-16 23:11:49 公開日:2020-04-04
# 微細画像分類のためのグループベースDeep Shared Feature Learning

Group Based Deep Shared Feature Learning for Fine-grained Image Classification ( http://arxiv.org/abs/2004.01817v1 )

ライセンス: Link先を確認
Xuelu Li and Vishal Monga(参考訳) このような画像内の物体はクラス間の視覚差は小さいが、ポーズ、照明、視点のバリエーションが大きいため、きめ細かい画像分類は大きな課題となっている。 既存の作業の多くは、最先端のネットワークアーキテクチャによる高度にカスタマイズされた機能抽出に焦点を当てている。 細粒度分類における異なるクラスからのイメージが重要な特徴を共有していることを考慮し,共有特徴を明示的にモデル化し,その効果を除去して分類結果の強化を図る,新たなディープネットワークアーキテクチャを提案する。 共有特徴のモデリングは、既存のクラスをグループに分割し、複数の共有特徴パターンを発見(学習)する新しいグループベースの学習に基づいている。 我々はこのフレームワークをグループベースのDeep Shared Feature Learning (GSFL)と呼び、学習したネットワークをGSFL-Netと呼ぶ。 具体的には、GSFL-Netは、新たに提案された特徴表現損失によって制約された特殊設計のオートエンコーダを開発し、特徴の集合を構成的共有および識別的コンポーネントに分解する。 推論中、識別的特徴成分のみが分類タスクの達成に使用される。 特殊オートエンコーダの重要な利点は、多用途であり、最先端のきめ細かい特徴抽出モデルと組み合わせて、それらと一緒にトレーニングすることで、パフォーマンスを直接改善できる点である。 ベンチマークデータセットの実験では、GSFL-Netはより解釈可能なアーキテクチャで、最先端の分類精度を高めることができる。

Fine-grained image classification has emerged as a significant challenge because objects in such images have small inter-class visual differences but with large variations in pose, lighting, and viewpoints, etc. Most existing work focuses on highly customized feature extraction via deep network architectures which have been shown to deliver state of the art performance. Given that images from distinct classes in fine-grained classification share significant features of interest, we present a new deep network architecture that explicitly models shared features and removes their effect to achieve enhanced classification results. Our modeling of shared features is based on a new group based learning wherein existing classes are divided into groups and multiple shared feature patterns are discovered (learned). We call this framework Group based deep Shared Feature Learning (GSFL) and the resulting learned network as GSFL-Net. Specifically, the proposed GSFL-Net develops a specially designed autoencoder which is constrained by a newly proposed Feature Expression Loss to decompose a set of features into their constituent shared and discriminative components. During inference, only the discriminative feature component is used to accomplish the classification task. A key benefit of our specialized autoencoder is that it is versatile and can be combined with state-of-the-art fine-grained feature extraction models and trained together with them to improve their performance directly. Experiments on benchmark datasets show that GSFL-Net can enhance classification accuracy over the state of the art with a more interpretable architecture.
翻訳日:2022-12-16 23:10:31 公開日:2020-04-04
# パンオプティカルセグメンテーションのためのピクセルコンセンサス投票

Pixel Consensus Voting for Panoptic Segmentation ( http://arxiv.org/abs/2004.01849v1 )

ライセンス: Link先を確認
Haochen Wang, Ruotian Luo, Michael Maire, Greg Shakhnarovich(参考訳) われわれのアプローチの中核であるPixel Consensus Votingは、一般化されたハフ変換に基づくインスタンスセグメンテーションのためのフレームワークである。 ピクセルは、インスタンスcentroidを含む可能性のある領域に対して、離散化された確率的投票をキャストする。 投票ヒートマップに現れる検出されたピークでは、バックプロジェクションを適用してピクセルを収集し、インスタンスマスクを生成する。 オブジェクト提案を密に列挙するスライディングウィンドウ検出器とは異なり,本手法は画素単位の投票結果のコンセンサスによってインスタンスを検出する。 畳み込みニューラルネットワークのネイティブ演算子を用いて,投票集計とバックプロジェクションを実装する。 セントロイド投票の離散化は、fcnスタイルのセマンティクスセグメンテーションと類似し補完的なピクセルラベリングへのインスタンスセグメンテーションのトレーニングを減少させ、物やものを共同でモデル化する効率的で統一的なアーキテクチャへと繋がる。 我々は,COCOおよびCityscapes Panoptic Segmentationにおけるパイプラインの有効性を実証し,競争結果を得た。 コードはオープンソースになる。

The core of our approach, Pixel Consensus Voting, is a framework for instance segmentation based on the Generalized Hough transform. Pixels cast discretized, probabilistic votes for the likely regions that contain instance centroids. At the detected peaks that emerge in the voting heatmap, backprojection is applied to collect pixels and produce instance masks. Unlike a sliding window detector that densely enumerates object proposals, our method detects instances as a result of the consensus among pixel-wise votes. We implement vote aggregation and backprojection using native operators of a convolutional neural network. The discretization of centroid voting reduces the training of instance segmentation to pixel labeling, analogous and complementary to FCN-style semantic segmentation, leading to an efficient and unified architecture that jointly models things and stuff. We demonstrate the effectiveness of our pipeline on COCO and Cityscapes Panoptic Segmentation and obtain competitive results. Code will be open-sourced.
翻訳日:2022-12-16 23:10:04 公開日:2020-04-04
# 非)ロバスト特徴の絡み合いの理解と低次元および高次元逆攻撃との関係

Understanding (Non-)Robust Feature Disentanglement and the Relationship Between Low- and High-Dimensional Adversarial Attacks ( http://arxiv.org/abs/2004.01903v1 )

ライセンス: Link先を確認
Zuowen Wang and Leo Horne(参考訳) 最近の研究は、ニューラルネットワークの敵対的脆弱性は、トレーニングデータに固有の「非破壊的特徴」を過大に用いているためであると仮説を立てている。 PGD攻撃には、ニューラルネットワークが自然の精度を高めるために非破壊的な特徴に強く依存し始める訓練段階があることを実証的に示す。 また,各訓練バッチに「ロバストな特徴」を含む一定量の画像が混入したPGDスタイルの攻撃に対する脆弱性を低減する機構を提案し,その結果,頑健な精度が向上し,自然な精度が著しく損なわれないことを示す。 ロバスト機能」のトレーニングによって、さまざまなアーキテクチャと異なる攻撃に対する堅牢な正確性が向上することを示す。 最後に,これらの「ロバスト特徴」が空間的不変性を誘導しないことを示す。

Recent work has put forth the hypothesis that adversarial vulnerabilities in neural networks are due to them overusing "non-robust features" inherent in the training data. We show empirically that for PGD-attacks, there is a training stage where neural networks start heavily relying on non-robust features to boost natural accuracy. We also propose a mechanism reducing vulnerability to PGD-style attacks consisting of mixing in a certain amount of images contain-ing mostly "robust features" into each training batch, and then show that robust accuracy is improved, while natural accuracy is not substantially hurt. We show that training on "robust features" provides boosts in robust accuracy across various architectures and for different attacks. Finally, we demonstrate empirically that these "robust features" do not induce spatial invariance.
翻訳日:2022-12-16 23:09:04 公開日:2020-04-04
# スマート医療モニタリングのための機械学習ベースのフレームワーク

A Machine Learning Based Framework for the Smart Healthcare Monitoring ( http://arxiv.org/abs/2004.03360v1 )

ライセンス: Link先を確認
Abrar Zahin, Le Thanh Tan, and Rose Qingyang Hu(参考訳) 本稿では,圧縮センシング(cs)と最先端機械学習に基づくdenoiserの組み合わせと,乗算器(admm)構造の交互な方向性を組み合わせた,スマート医療システムのための新しい枠組みを提案する。 この統合により、ADMMのモジュラ構造のおかげで、低複雑さエンコーダのソフトウェア実装が大幅に単純化される。 さらに,画像ストリームからのフォールダウン動作の検出にも注目する。 したがって,本研究の主な目的は,画像の可視的な再構築であり,訓練された分類器における検出ステップを支援することである。 この効率的なスマートヘルスモニタリングフレームワークのために、我々は、訓練されたバイナリ畳み込みニューラルネットワーク(cnn)分類器をフォールアクション分類器に採用した。 このシナリオでは、フォールイメージに対処し、フォールイメージを圧縮し、送信し、再構築する。 実験結果は,従来の手法と比較して,ネットワークパラメータが与える影響と,提案の有意な性能向上を示す。

In this paper, we propose a novel framework for the smart healthcare system, where we employ the compressed sensing (CS) and the combination of the state-of-the-art machine learning based denoiser as well as the alternating direction of method of multipliers (ADMM) structure. This integration significantly simplifies the software implementation for the lowcomplexity encoder, thanks to the modular structure of ADMM. Furthermore, we focus on detecting fall down actions from image streams. Thus, teh primary purpose of thus study is to reconstruct the image as visibly clear as possible and hence it helps the detection step at the trained classifier. For this efficient smart health monitoring framework, we employ the trained binary convolutional neural network (CNN) classifier for the fall-action classifier, because this scheme is a part of surveillance scenario. In this scenario, we deal with the fallimages, thus, we compress, transmit and reconstruct the fallimages. Experimental results demonstrate the impacts of network parameters and the significant performance gain of the proposal compared to traditional methods.
翻訳日:2022-12-16 23:02:07 公開日:2020-04-04
# 畳み込みニューラルネットワークを用いた腰椎X線の自動セグメンテーションとラベル付け

Convolutional Neural Networks based automated segmentation and labelling of the lumbar spine X-ray ( http://arxiv.org/abs/2004.03364v1 )

ライセンス: Link先を確認
Sandor Konya, Sai Natarajan T R, Hassan Allouch, Kais Abu Nahleh, Omneya Yakout Dogheim, Heinrich Boehm(参考訳) 本研究の目的は, 腰椎X線を手動でアノテートした730本の異なるセグメンテーションネットワークのセグメンテーション精度を検討することである。 インスタンスセグメンテーションネットワークとセマンティックセグメンテーションネットワークを比較した。 この研究は、金属インプラントを用いた脊椎疾患と術後画像のコホートであった。 平均的平均精度と平均的結合(IoU)は,最高のインスタンスセグメンテーションモデルでは最大3%,平均画素精度と重み付きIoUは最高のセグメンテーションモデルではわずかに向上した。 さらに、インスタンスセグメンテーションモデルの推論は、臨床決定支援でさらなるパイプラインを処理するための実装が容易である。

The aim of this study is to investigate the segmentation accuracies of different segmentation networks trained on 730 manually annotated lateral lumbar spine X-rays. Instance segmentation networks were compared to semantic segmentation networks. The study cohort comprised diseased spines and postoperative images with metallic implants. The average mean accuracy and mean intersection over union (IoU) was up to 3 percent better for the best performing instance segmentation model, the average pixel accuracy and weighted IoU were slightly better for the best performing semantic segmentation model. Moreover, the inferences of the instance segmentation models are easier to implement for further processing pipelines in clinical decision support.
翻訳日:2022-12-16 23:01:49 公開日:2020-04-04
# オンライン確率学習者の追跡性能

Tracking Performance of Online Stochastic Learners ( http://arxiv.org/abs/2004.01942v1 )

ライセンス: Link先を確認
Stefan Vlaski, Elsa Rizk, Ali H. Sayed(参考訳) オンライン確率アルゴリズムの利用は、大規模なバッチにデータを保存して処理することなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。 一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデルプロパティなどの問題パラメータのドリフトに適応し、適切な精度で最適な解を追跡する能力を持つ。 適応フィルタの研究と類似性に基づいて、定常性仮定に基づく定常状態性能とランダムウォークモデルに基づくオンライン学習者の追跡性能の関連性を確立する。 このリンクにより、定常表現から直接ほぼ検査によって追跡性能を推測できる。

The utilization of online stochastic algorithms is popular in large-scale learning settings due to their ability to compute updates on the fly, without the need to store and process data in large batches. When a constant step-size is used, these algorithms also have the ability to adapt to drifts in problem parameters, such as data or model properties, and track the optimal solution with reasonable accuracy. Building on analogies with the study of adaptive filters, we establish a link between steady-state performance derived under stationarity assumptions and the tracking performance of online learners under random walk models. The link allows us to infer the tracking performance from steady-state expressions directly and almost by inspection.
翻訳日:2022-12-16 23:01:37 公開日:2020-04-04
# 注意に基づくノイズリカレント状態遷移によるニュース駆動株価予測

News-Driven Stock Prediction With Attention-Based Noisy Recurrent State Transition ( http://arxiv.org/abs/2004.01878v1 )

ライセンス: Link先を確認
Xiao Liu, Heyan Huang, Yue Zhang, Changsen Yuan(参考訳) ニュース駆動株価変動予測では,時間経過に伴う株価変動の直接モデルを検討する。 リカレント状態遷移モデルを構築し、過去の価格変動と将来の価格変動の相関をモデル化することにより、株式移動の段階的なプロセスをよりよく把握する。 ニュースとノイズの影響を分離することにより、繰り返しの状態に基づいてノイズランダム係数を明示的に設定する。 結果は,提案モデルが強いベースラインより優れていることを示す。 ニュースイベントに対する注意力のおかげで、私たちのモデルもより説明がつく。 我々の知る限り、我々はニュース駆動の株価変動予測のための基本的な株価状態よりも、イベントとノイズの両方を明示的にモデル化した最初の人物である。

We consider direct modeling of underlying stock value movement sequences over time in the news-driven stock movement prediction. A recurrent state transition model is constructed, which better captures a gradual process of stock movement continuously by modeling the correlation between past and future price movements. By separating the effects of news and noise, a noisy random factor is also explicitly fitted based on the recurrent states. Results show that the proposed model outperforms strong baselines. Thanks to the use of attention over news events, our model is also more explainable. To our knowledge, we are the first to explicitly model both events and noise over a fundamental stock value state for news-driven stock movement prediction.
翻訳日:2022-12-16 23:01:12 公開日:2020-04-04
# 視覚意味的テクスチャ類似度に基づくマルチモーダル表現の評価

Evaluating Multimodal Representations on Visual Semantic Textual Similarity ( http://arxiv.org/abs/2004.01894v1 )

ライセンス: Link先を確認
Oier Lopez de Lacalle, Ander Salaberria, Aitor Soroa, Gorka Azkune and Eneko Agirre(参考訳) 視覚表現とテキスト表現の組み合わせは、画像キャプションや視覚的質問応答などのタスクにおいて優れた結果を生み出しているが、マルチモーダル表現の推論能力はほとんどテストされていない。 テキスト表現の場合、テキストエンターメントやセマンティックテキスト類似性といった推論タスクは、テキスト表現の品質をベンチマークするためにしばしば用いられてきた。 我々の研究の長期的な目標は、現在の推論能力を改善するマルチモーダル表現技術を考案することである。 そこで我々は,このような推論能力を直接テストできる新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。 画像と付随するキャプションによって構成される2つの項目が与えられた場合、vstsシステムは、文脈におけるキャプションが相互に意味的に等価である程度を評価する必要がある。 簡易なマルチモーダル表現を用いた実験により,画像表現の追加により,テキストのみの表現に比べて推論精度が向上した。 この改善は、2つの項目の表現の類似性を直接計算する場合と、vSTSトレーニングデータに基づいてシアムネットワークを学習する場合の両方で観察される。 我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションをベンチマークする余地は十分にある。

The combination of visual and textual representations has produced excellent results in tasks such as image captioning and visual question answering, but the inference capabilities of multimodal representations are largely untested. In the case of textual representations, inference tasks such as Textual Entailment and Semantic Textual Similarity have been often used to benchmark the quality of textual representations. The long term goal of our research is to devise multimodal representation techniques that improve current inference capabilities. We thus present a novel task, Visual Semantic Textual Similarity (vSTS), where such inference ability can be tested directly. Given two items comprised each by an image and its accompanying caption, vSTS systems need to assess the degree to which the captions in context are semantically equivalent to each other. Our experiments using simple multimodal representations show that the addition of image representations produces better inference, compared to text-only representations. The improvement is observed both when directly computing the similarity between the representations of the two items, and when learning a siamese network based on vSTS training data. Our work shows, for the first time, the successful contribution of visual information to textual inference, with ample room for benchmarking more complex multimodal representation options.
翻訳日:2022-12-16 23:01:01 公開日:2020-04-04
# タスク指向対話システム構築のための事前学習型・注意型ニューラルネットワーク

Pre-Trained and Attention-Based Neural Networks for Building Noetic Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2004.01940v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Tianda Li, Quan Liu, Xiaodan Zhu, Zhen-Hua Ling, Yu-Ping Ruan(参考訳) NOESIS IIチャレンジは、第8回対話システム技術チャレンジ(DSTC 8)のトラック2として、DSTC 7の拡張である。 このトラックは、デプロイされたタスク指向対話システムを作成するのに不可欠な新しい要素を取り入れている。 本稿では,本課題における全てのサブタスクで評価されるシステムについて述べる。 マルチターン対話システムにおいて,事前学習型注意ネットワークを利用する際の問題点について検討する。 一方,対話システムの本質性を保ちつつ,学習済み言語モデルを多元対話システムに適用するための適応手法が提案されている。 dstc 8のトラック2の評価結果では,提案モデルはサブタスク1で第4位,サブタスク2で第3位,サブタスク3で第1位であった。

The NOESIS II challenge, as the Track 2 of the 8th Dialogue System Technology Challenges (DSTC 8), is the extension of DSTC 7. This track incorporates new elements that are vital for the creation of a deployed task-oriented dialogue system. This paper describes our systems that are evaluated on all subtasks under this challenge. We study the problem of employing pre-trained attention-based network for multi-turn dialogue systems. Meanwhile, several adaptation methods are proposed to adapt the pre-trained language models for multi-turn dialogue systems, in order to keep the intrinsic property of dialogue systems. In the released evaluation results of Track 2 of DSTC 8, our proposed models ranked fourth in subtask 1, third in subtask 2, and first in subtask 3 and subtask 4 respectively.
翻訳日:2022-12-16 23:00:00 公開日:2020-04-04
# 医学文献から新型コロナウイルスに関する放射線診断

Identifying Radiological Findings Related to COVID-19 from Medical Literature ( http://arxiv.org/abs/2004.01862v1 )

ライセンス: Link先を確認
Yuxiao Liang, Pengtao Xie(参考訳) 新型コロナウイルス感染症2019(COVID-19)は世界中で100万人以上の患者に感染し、2020年4月3日現在で5万5000人以上が死亡している。 放射線検査は、新型コロナウイルスの診断と治療を導く上で重要な情報源である。 しかし, 放射線学的所見とCOVID-19との関連性に関する既存の研究は, 異なる病院によって別々に行われている。 この問題に対処するため,世界中の病院からの調査報告を含む大量のCOVID-19文献を解析し,その結果を整理し,放射線学的所見とCOVID-19との相関について,偏見のない,普遍的な結論を導く自然言語処理手法を開発した。 本手法をcord-19データセットに適用し,covid-19と密接に関連した放射線学的所見の抽出に成功した。

Coronavirus disease 2019 (COVID-19) has infected more than one million individuals all over the world and caused more than 55,000 deaths, as of April 3 in 2020. Radiological findings are important sources of information in guiding the diagnosis and treatment of COVID-19. However, the existing studies on how radiological findings are correlated with COVID-19 are conducted separately by different hospitals, which may be inconsistent or even conflicting due to population bias. To address this problem, we develop natural language processing methods to analyze a large collection of COVID-19 literature containing study reports from hospitals all over the world, reconcile these results, and draw unbiased and universally-sensible conclusions about the correlation between radiological findings and COVID-19. We apply our method to the CORD-19 dataset and successfully extract a set of radiological findings that are closely tied to COVID-19.
翻訳日:2022-12-16 22:53:46 公開日:2020-04-04
# 少量テキスト分類のための知識誘導型メトリクス学習

Knowledge Guided Metric Learning for Few-Shot Text Classification ( http://arxiv.org/abs/2004.01907v1 )

ライセンス: Link先を確認
Dianbo Sui, Yubo Chen, Binjie Mao, Delai Qiu, Kang Liu and Jun Zhao(参考訳) ディープラーニングに基づくテキスト分類モデルのトレーニングは、大量のアノテーションデータに大きく依存しており、取得が困難である。 ラベル付きデータが少ない場合、モデルは十分なパフォーマンスを達成するのに苦労する傾向がある。 しかし、人間は少ない例で新しい分類を非常に効率的に区別することができる。 これは、人間が関連するタスクから得られる知識を活用できるという事実が主な原因である。 人間の知性に触発され,人間の知識を模倣する素早い学習に外部知識を導入することを提案する。 この目的に対して新しいパラメータ生成ネットワークを探索し、外部知識を用いて関係ネットワークパラメータを生成することができる。 メトリクスは、これらの生成されたパラメータを備えたタスク間で転送できるため、同様のタスクは同様のメトリクスを使用し、異なるタスクは異なるメトリクスを使用する。 実験により,本手法が最先端のテキスト分類モデルよりも優れていることを示す。

The training of deep-learning-based text classification models relies heavily on a huge amount of annotation data, which is difficult to obtain. When the labeled data is scarce, models tend to struggle to achieve satisfactory performance. However, human beings can distinguish new categories very efficiently with few examples. This is mainly due to the fact that human beings can leverage knowledge obtained from relevant tasks. Inspired by human intelligence, we propose to introduce external knowledge into few-shot learning to imitate human knowledge. A novel parameter generator network is investigated to this end, which is able to use the external knowledge to generate relation network parameters. Metrics can be transferred among tasks when equipped with these generated parameters, so that similar tasks use similar metrics while different tasks use different metrics. Through experiments, we demonstrate that our method outperforms the state-of-the-art few-shot text classification models.
翻訳日:2022-12-16 22:53:14 公開日:2020-04-04
# DNAメチル化データによる自殺・非自殺の予測:機械学習によるアプローチ

DNA Methylation Data to Predict Suicidal and Non-Suicidal Deaths: A Machine Learning Approach ( http://arxiv.org/abs/2004.01819v1 )

ライセンス: Link先を確認
Rifat Zahan, Ian McQuillan and Nathaniel D. Osgood(参考訳) 本研究の目的は,最新の機械学習アルゴリズムを用いてDNAメチル化データから自殺・非自殺死を予測することである。 サポートベクターマシンを用いて,2つの皮質脳領域の組織からメチル化DNAプローブ強度の正規化値からなる既存の二次データを分類し,自殺事例と制御事例を区別した。 分類に先立ち, 主成分分析 (PCA) と t-distributed Stochastic Neighbor Embedding (T-SNE) を用い, データの寸法を小さくした。 PCAと比較して、現代のデータ可視化手法t-SNEは次元の低減に優れる。 t-SNEは低次元データにおける非線形パターンの可能性を説明できる。 サポートベクターマシン(svm)のトレーニングデータとしてt-sneから出力される4次元クロスバリデーションを適用した。 クロスバリデーションを用いたにもかかわらず、BA11データに対する自殺死の予測は名目上完全なものであり、モデルの過剰適合の可能性を示している。 この研究は、2つの極端なシナリオからのみ研究されたため、「スペクトルバイアス」に悩まされた可能性がある。 本研究はDNAメチル化データから自殺死・非自殺死を分類するための基礎研究である。 将来、サンプルサイズが大きくなると、生体からのメチル化データが組み込まれ、バイアスが減少し、結果の正確性が向上する可能性がある。

The objective of this study is to predict suicidal and non-suicidal deaths from DNA methylation data using a modern machine learning algorithm. We used support vector machines to classify existing secondary data consisting of normalized values of methylated DNA probe intensities from tissues of two cortical brain regions to distinguish suicide cases from control cases. Before classification, we employed Principal component analysis (PCA) and t-distributed Stochastic Neighbor Embedding (t-SNE) to reduce the dimension of the data. In comparison to PCA, the modern data visualization method t-SNE performs better in dimensionality reduction. t-SNE accounts for the possible non-linear patterns in low-dimensional data. We applied four-fold cross-validation in which the resulting output from t-SNE was used as training data for the Support Vector Machine (SVM). Despite the use of cross-validation, the nominally perfect prediction of suicidal deaths for BA11 data suggests possible over-fitting of the model. The study also may have suffered from 'spectrum bias' since the individuals were only studied from two extreme scenarios. This research constitutes a baseline study for classifying suicidal and non-suicidal deaths from DNA methylation data. Future studies with larger sample size, while possibly incorporating methylation data from living individuals, may reduce the bias and improve the accuracy of the results.
翻訳日:2022-12-16 22:53:02 公開日:2020-04-04
# lu-net:2次元心エコー図における深層学習による左室壁構造のセグメンテーションのロバスト性を改善するマルチタスクネットワーク

LU-Net: a multi-task network to improve the robustness of segmentation of left ventriclular structures by deep learning in 2D echocardiography ( http://arxiv.org/abs/2004.02043v1 )

ライセンス: Link先を確認
Sarah Leclerc, Erik Smistad, Andreas {\O}stvik, Frederic Cervenansky, Florian Espinosa, Torvald Espeland, Erik Andreas Rye Berg, Thomas Grenier, Carole Lartizien, Pierre-Marc Jodoin, Lasse Lovstakken, Olivier Bernard(参考訳) 心臓構造のセグメンテーションは、心臓の容積指数を推定する基本的なステップの1つである。 このステップは、まだ臨床ルーチンで半自動で行われており、したがって、サーバ間およびサーバ内変動が生じる。 近年の研究では、ディープラーニングが完全な自動セグメンテーションを行う可能性があることが示されている。 しかし、現在の最良のソリューションは依然として堅牢性の欠如に苦しんでいる。 本研究では,臨床指標の推定を向上し,外来者数を減らすとともに,心臓セグメンテーションの全体的な精度を向上させるために,エンドツーエンドのマルチタスクネットワークを導入する。 大規模なオープンアクセスデータセットから得られた結果から,本手法は,現在最高の深層学習解を上回り,平均1.5mm,Hausdorff距離5.1mm)の心外膜境界におけるサーベイラビリティよりも全体のセグメンテーション精度を11%低い精度で達成していることがわかった。 また,0.96の相関と7.6mlの平均絶対誤差を用いて,拡張期左室容積と末期収縮期左室容積の専門的解析を密に再現できることを実証した。 左室の射出率については、平均相関係数 0.83 と絶対平均誤差 5.0% で比較され、オブザーバー内マージンより若干低いスコアが得られた。 この観察から,改善すべき領域が示唆された。

Segmentation of cardiac structures is one of the fundamental steps to estimate volumetric indices of the heart. This step is still performed semi-automatically in clinical routine, and is thus prone to inter- and intra-observer variability. Recent studies have shown that deep learning has the potential to perform fully automatic segmentation. However, the current best solutions still suffer from a lack of robustness. In this work, we introduce an end-to-end multi-task network designed to improve the overall accuracy of cardiac segmentation while enhancing the estimation of clinical indices and reducing the number of outliers. Results obtained on a large open access dataset show that our method outperforms the current best performing deep learning solution and achieved an overall segmentation accuracy lower than the intra-observer variability for the epicardial border (i.e. on average a mean absolute error of 1.5mm and a Hausdorff distance of 5.1mm) with 11% of outliers. Moreover, we demonstrate that our method can closely reproduce the expert analysis for the end-diastolic and end-systolic left ventricular volumes, with a mean correlation of 0.96 and a mean absolute error of 7.6ml. Concerning the ejection fraction of the left ventricle, results are more contrasted with a mean correlation coefficient of 0.83 and an absolute mean error of 5.0%, producing scores that are slightly below the intra-observer margin. Based on this observation, areas for improvement are suggested.
翻訳日:2022-12-16 22:52:39 公開日:2020-04-04
# データからネットワーク構造を推論する

Inferring Network Structure From Data ( http://arxiv.org/abs/2004.02046v1 )

ライセンス: Link先を確認
Ivan Brugere, Tanya Y. Berger-Wolf(参考訳) ネットワークは、多くのアプリケーションドメインにおける基礎データのための複雑なモデルである。 ほとんどの例では、生データはネットワークの形ではなく、センサー、ログ、画像、その他のデータから派生している。 しかし、このデータをネットワークに翻訳する際の様々な選択の影響はほとんど検討されていない。 本研究では,様々なタスクに対するネットワークの有用性を評価することに焦点を当てたネットワークモデル選択手法と,最も控えめなモデルを選択する効率尺度を提案する。 このネットワーク定義は,基盤となるシステムの動作をモデル化するためのいくつかの方法において重要であることを実証する。

Networks are complex models for underlying data in many application domains. In most instances, raw data is not natively in the form of a network, but derived from sensors, logs, images, or other data. Yet, the impact of the various choices in translating this data to a network have been largely unexamined. In this work, we propose a network model selection methodology that focuses on evaluating a network's utility for varying tasks, together with an efficiency measure which selects the most parsimonious model. We demonstrate that this network definition matters in several ways for modeling the behavior of the underlying system.
翻訳日:2022-12-16 22:52:10 公開日:2020-04-04
# ObjectNetデータセット:再分析と補正

ObjectNet Dataset: Reanalysis and Correction ( http://arxiv.org/abs/2004.02042v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) 最近、barbuらは、毎日の生活状況にオブジェクトを含むobjectnetと呼ばれるデータセットを導入した。 彼らはこのデータセット上のアートオブジェクト認識モデルの状態の劇的なパフォーマンス低下を示した。 深層モデルの一般化能力に関する結果の重要性と意義から,その知見を再度考察する。 分離されたオブジェクトではなく、複数のオブジェクトを含むシーンにオブジェクト認識器を適用するという、彼らの仕事における大きな問題を強調します。 後者の結果、コードを使ったパフォーマンスが約20~30%向上しました。 ObjectNetの論文で報告された結果と比較すると、テスト時間データの増大なしに、パフォーマンス損失の約10~15パーセントを回復することができる。 しかし、barbuらによる結論に従い、深層モデルはこのデータセットに深刻な影響を受けると結論づけた。 したがって、objectnetは、トレーニングされたデータセットを超えたモデルの一般化能力をテストする上で、依然として困難なデータセットであると考えています。

Recently, Barbu et al introduced a dataset called ObjectNet which includes objects in daily life situations. They showed a dramatic performance drop of the state of the art object recognition models on this dataset. Due to the importance and implications of their results regarding generalization ability of deep models, we take a second look at their findings. We highlight a major problem with their work which is applying object recognizers to the scenes containing multiple objects rather than isolated objects. The latter results in around 20-30% performance gain using our code. Compared with the results reported in the ObjectNet paper, we observe that around 10-15 % of the performance loss can be recovered, without any test time data augmentation. In accordance with Barbu et al.'s conclusions, however, we also conclude that deep models suffer drastically on this dataset. Thus, we believe that ObjectNet remains a challenging dataset for testing the generalization power of models beyond datasets on which they have been trained.
翻訳日:2022-12-16 22:51:33 公開日:2020-04-04
# CG-BERT:汎用Few-shotインテント検出のためのBERTを用いた条件テキスト生成

CG-BERT: Conditional Text Generation with BERT for Generalized Few-shot Intent Detection ( http://arxiv.org/abs/2004.01881v1 )

ライセンス: Link先を確認
Congying Xia, Chenwei Zhang, Hoang Nguyen, Jiawei Zhang, Philip Yu(参考訳) 本稿では,自然言語理解における意図検出タスク,すなわち一般化Few-Shot Intent Detection (GFSID)について,より現実的で困難な問題を定式化する。 GFSIDは、十分なラベル付きデータを持つ既存の意図と、クラス毎にいくつかの例しか持たない新しい意図の両方からなる共同ラベル空間を識別することを目的としている。 そこで本研究では,BERT (CG-BERT) を用いた条件文生成モデルを提案する。 CG-BERTは、インテントラベルに条件付きテキストを生成するために、大規模な事前学習言語モデルを効果的に活用する。 変動推論を用いて発話分布をモデル化することにより、cg-bertは少数の発話しか利用できない場合でも、新たな意図に対する多様な発話を生成することができる。 実験結果から,CG-BERTは実世界の2つのデータセットに対して,1ショットと5ショットの設定で,GFSIDタスクの最先端性能を実現することがわかった。

In this paper, we formulate a more realistic and difficult problem setup for the intent detection task in natural language understanding, namely Generalized Few-Shot Intent Detection (GFSID). GFSID aims to discriminate a joint label space consisting of both existing intents which have enough labeled data and novel intents which only have a few examples for each class. To approach this problem, we propose a novel model, Conditional Text Generation with BERT (CG-BERT). CG-BERT effectively leverages a large pre-trained language model to generate text conditioned on the intent label. By modeling the utterance distribution with variational inference, CG-BERT can generate diverse utterances for the novel intents even with only a few utterances available. Experimental results show that CG-BERT achieves state-of-the-art performance on the GFSID task with 1-shot and 5-shot settings on two real-world datasets.
翻訳日:2022-12-16 22:45:32 公開日:2020-04-04
# スタイン変分勾配勾配とブラックボックス変分推定の等価性

The equivalence between Stein variational gradient descent and black-box variational inference ( http://arxiv.org/abs/2004.01822v1 )

ライセンス: Link先を確認
Casey Chu, Kentaro Minami, Kenji Fukumizu(参考訳) ベイズ変分勾配勾配(SVGD)とブラックボックス変分勾配(BBVI)の2つの一般的な手法の等価性を定式化する。 特に、BBVIは神経タンジェントカーネルである場合、SVGDと正確に対応していることを示す。 さらに、svgd と bbvi をカーネル勾配流と解釈し、svgd を確率分布の空間における勾配流と捉え、bbvi がその空間上のリーマン構造を自然に動機付けていることを示す最近の視点を用いてこれを行う。 また, GAN(Generative Adversarial Network)のトレーニングにおいて, カーネル勾配流は動的に記述される。 この研究は、変分推論と生成モデリングにおけるいくつかの既存の手法を統一し、カーネルをこれらのアルゴリズムの振る舞いを管理する基本的なオブジェクトとして識別し、その特性のより深い分析を動機付ける。

We formalize an equivalence between two popular methods for Bayesian inference: Stein variational gradient descent (SVGD) and black-box variational inference (BBVI). In particular, we show that BBVI corresponds precisely to SVGD when the kernel is the neural tangent kernel. Furthermore, we interpret SVGD and BBVI as kernel gradient flows; we do this by leveraging the recent perspective that views SVGD as a gradient flow in the space of probability distributions and showing that BBVI naturally motivates a Riemannian structure on that space. We observe that kernel gradient flow also describes dynamics found in the training of generative adversarial networks (GANs). This work thereby unifies several existing techniques in variational inference and generative modeling and identifies the kernel as a fundamental object governing the behavior of these algorithms, motivating deeper analysis of its properties.
翻訳日:2022-12-16 22:44:20 公開日:2020-04-04
# フェアネスの抽象化:オラクル、メトリクス、解釈可能性

Abstracting Fairness: Oracles, Metrics, and Interpretability ( http://arxiv.org/abs/2004.01840v1 )

ライセンス: Link先を確認
Cynthia Dwork, Christina Ilvento, Guy N. Rothblum, Pragya Sur(参考訳) 例えば、ローンアプリケーションを決定するための分類アルゴリズムは、文脈を考慮せずに公平さのために評価できないことはよく理解されている。 我々は、oracleが ``true'' のフェアネスを基礎的に理解しているフェアネスから何が学べるかを調べます。 オラクルは任意のフェアネス定義を満たす(コンテキスト、分類器)ペアとして入力を受け取り、その分類器が基礎となるフェアネスの真理を満たすか否かに応じてペアを受理または拒否する。 私たちの主要な概念的な結果は、基礎となる真理を学ぶ抽出手順です。さらに、この手順は、オラクルの弱い形式へのアクセスによって、この真理の近似を学べます。 すべての `truly fair'' 分類器が粗い計量を誘導するので、同じ決定を受けた人は互いにゼロであり、異なる決定を受けた者は距離1であるので、この抽出プロセスは、個別の公平性としても知られる、粗い計量公正性を保証する基礎となる。 我々の主な技術的成果は、弱オラクルの公正性の概念に対する穏やかな技術的制約の下での高忠実度抽出器である。 我々のフレームワークは、異なる結果を持つ多くの分類器がすべて公平であると考えられるシナリオを許容する。 本研究の結果は,「不公平」や「不公平」とみなす分類器の拒絶をヒトのアービターが許すような,高度に望まれるが未定義の分類システムの特性を示唆している。

It is well understood that classification algorithms, for example, for deciding on loan applications, cannot be evaluated for fairness without taking context into account. We examine what can be learned from a fairness oracle equipped with an underlying understanding of ``true'' fairness. The oracle takes as input a (context, classifier) pair satisfying an arbitrary fairness definition, and accepts or rejects the pair according to whether the classifier satisfies the underlying fairness truth. Our principal conceptual result is an extraction procedure that learns the underlying truth; moreover, the procedure can learn an approximation to this truth given access to a weak form of the oracle. Since every ``truly fair'' classifier induces a coarse metric, in which those receiving the same decision are at distance zero from one another and those receiving different decisions are at distance one, this extraction process provides the basis for ensuring a rough form of metric fairness, also known as individual fairness. Our principal technical result is a higher fidelity extractor under a mild technical constraint on the weak oracle's conception of fairness. Our framework permits the scenario in which many classifiers, with differing outcomes, may all be considered fair. Our results have implications for interpretablity -- a highly desired but poorly defined property of classification systems that endeavors to permit a human arbiter to reject classifiers deemed to be ``unfair'' or illegitimately derived.
翻訳日:2022-12-16 22:43:45 公開日:2020-04-04
# バックプロパゲーションニューラルネットにおける重みの初期化に関するベイズ的アプローチと文字認識への応用

A Bayesian approach for initialization of weights in backpropagation neural net with application to character recognition ( http://arxiv.org/abs/2004.01875v1 )

ライセンス: Link先を確認
Nadir Murru, Rosaria Rossini(参考訳) ニューラルネットワークのトレーニングアルゴリズムの収束速度は、重みの初期化によって大きく影響を受ける。 本稿では,バックプロパゲーションニューラルネットにおける重み付けの初期化アルゴリズムについて,文字認識への応用について述べる。 初期化法は、主にカルマンフィルタのカスタマイズに基づいており、それをベイズ統計用語に翻訳している。 この文脈では、重みを相互従属正規確率変数によってモデル化された測定として考慮するメトロロジー的アプローチが用いられる。 アルゴリズムの性能はシミュレーション実験の結果を報告し議論することで示される。 結果はランダムウェイトの初期化や他の方法と比較される。 提案手法は,バックプロパゲーション学習アルゴリズムの収束率の向上を示す。

Convergence rate of training algorithms for neural networks is heavily affected by initialization of weights. In this paper, an original algorithm for initialization of weights in backpropagation neural net is presented with application to character recognition. The initialization method is mainly based on a customization of the Kalman filter, translating it into Bayesian statistics terms. A metrological approach is used in this context considering weights as measurements modeled by mutually dependent normal random variables. The algorithm performance is demonstrated by reporting and discussing results of simulation trials. Results are compared with random weights initialization and other methods. The proposed method shows an improved convergence rate for the backpropagation training algorithm.
翻訳日:2022-12-16 22:43:18 公開日:2020-04-04
# ショット学習における画像埋め込みの最適化

Optimization of Image Embeddings for Few Shot Learning ( http://arxiv.org/abs/2004.02034v1 )

ライセンス: Link先を確認
Arvind Srinivasan, Aprameya Bharadwaj, Manasa Sathyan, S Natarajan(参考訳) 本稿では,グラフニューラルネットワークソリューションで生成した画像埋め込みを,ショット学習をほとんど行わずに改善する。 本稿では,inception-net,u-net, attention u-net, squeeze-netなどの既存ネットワークの代替アーキテクチャを提案する。 私たちは、それらを生成するのに要する時間とコストで作られた埋め込みの品質を改善します。 提案する実装は,omniglot データセット上での 1-shot および 5-shot 学習のための既存の art 手法を上回っている。 実験には、共通のクラスを持たないテストセットとトレーニングセットが含まれていた。 5-wayおよび10-way/20-wayテストの結果を集計した。

In this paper we improve the image embeddings generated in the graph neural network solution for few shot learning. We propose alternate architectures for existing networks such as Inception-Net, U-Net, Attention U-Net, and Squeeze-Net to generate embeddings and increase the accuracy of the models. We improve the quality of embeddings created at the cost of the time taken to generate them. The proposed implementations outperform the existing state of the art methods for 1-shot and 5-shot learning on the Omniglot dataset. The experiments involved a testing set and training set which had no common classes between them. The results for 5-way and 10-way/20-way tests have been tabulated.
翻訳日:2022-12-16 22:42:42 公開日:2020-04-04
# 視覚的質問応答における合理性の生成

Generating Rationales in Visual Question Answering ( http://arxiv.org/abs/2004.02032v1 )

ライセンス: Link先を確認
Hammad A. Ayyubi, Md. Mehrab Tanjim, Julian J. McAuley, and Garrison W. Cottrell(参考訳) 近年のvqa(visual questionanswering)の進歩にもかかわらず、音の推論と理解能力によって、どの程度の成功がもたらされるかを決定することは課題であり、我々はこの課題を新しい合理化のタスクを提案して調査する。 要するに私たちは,vqaモデルに対して,それが予測する回答に対する帰属的根拠を持つタスクを実行します。 Visual Commonsense Rea-soning (VCR)タスクからのデータを利用する。 我々はまず,先行するVCRモジュールの1つであるVLBERTにおいて,最先端のランゲージモデルであるGPT-2を用いて,予め制限された重みから有理性を生成することにより,不利なコモンセンスについて検討した。 次に、VQAにおける解答の予測と合理性の生成という2つのタスクと、エンドツーエンドでVLBERTとGPT-2を併用する。 量的および質的評価尺度に基づくVQAモデルにおけるこのような訓練が総合的な理解を誘導することを示す

Despite recent advances in Visual QuestionAnswering (VQA), it remains a challenge todetermine how much success can be attributedto sound reasoning and comprehension ability.We seek to investigate this question by propos-ing a new task ofrationale generation. Es-sentially, we task a VQA model with generat-ing rationales for the answers it predicts. Weuse data from the Visual Commonsense Rea-soning (VCR) task, as it contains ground-truthrationales along with visual questions and an-swers. We first investigate commonsense un-derstanding in one of the leading VCR mod-els, ViLBERT, by generating rationales frompretrained weights using a state-of-the-art lan-guage model, GPT-2. Next, we seek to jointlytrain ViLBERT with GPT-2 in an end-to-endfashion with the dual task of predicting the an-swer in VQA and generating rationales. Weshow that this kind of training injects com-monsense understanding in the VQA modelthrough quantitative and qualitative evaluationmetrics
翻訳日:2022-12-16 22:35:10 公開日:2020-04-04
# シーケンス・ツー・シーケンス・アーキテクチャと事前学習言語モデルによる会話型質問修正

Conversational Question Reformulation via Sequence-to-Sequence Architectures and Pretrained Language Models ( http://arxiv.org/abs/2004.01909v1 )

ライセンス: Link先を確認
Sheng-Chieh Lin, Jheng-Hong Yang, Rodrigo Nogueira, Ming-Feng Tsai, Chuan-Ju Wang, Jimmy Lin(参考訳) 本稿では,sequence-to-sequence architectures and pretrained language models (plms) を用いた対話型質問再構成(cqr)に関する実証研究を行う。 我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン対トークンの強い独立性の仮定に対処する。 タスク指向対話システムのCQRベンチマークにおいて、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータをドメイン外タスクとして検証する。 近年のテキスト・テキスト・トランスフォーマー(T5)は,CANARDとCAsTの両方において,類似のトランスフォーマーアーキテクチャと比較して,より少ないパラメータで最良の結果が得られることを示した。

This paper presents an empirical study of conversational question reformulation (CQR) with sequence-to-sequence architectures and pretrained language models (PLMs). We leverage PLMs to address the strong token-to-token independence assumption made in the common objective, maximum likelihood estimation, for the CQR task. In CQR benchmarks of task-oriented dialogue systems, we evaluate fine-tuned PLMs on the recently-introduced CANARD dataset as an in-domain task and validate the models using data from the TREC 2019 CAsT Track as an out-domain task. Examining a variety of architectures with different numbers of parameters, we demonstrate that the recent text-to-text transfer transformer (T5) achieves the best results both on CANARD and CAsT with fewer parameters, compared to similar transformer architectures.
翻訳日:2022-12-16 22:34:49 公開日:2020-04-04
# シーケンス上の推論のためのグラフシーケンスネットワーク

Graph Sequential Network for Reasoning over Sequences ( http://arxiv.org/abs/2004.02001v1 )

ライセンス: Link先を確認
Ming Tu, Jing Huang, Xiaodong He, Bowen Zhou(参考訳) 近年,マルチホップ機械読解などの推論を必要とする様々なNLPタスクに対して,グラフニューラルネットワーク(GNN)が成功している。 本稿では,シーケンスから構築したグラフ,すなわちシーケンスデータを持つグラフノード上で推論が必要な新しいケースについて考察する。 既存のGNNモデルは、まずノード列を固定次元ベクトルに要約し、次にこれらのベクトルにGNNを適用することで、この目標を達成する。 初期要約に固有の情報損失を回避し、GNN出力の逐次ラベリングタスクを実現するため、ノードと各隣接ノードの共用に基づく新しいメッセージパッシングアルゴリズムを特徴とするグラフシーケンスネットワーク(GSN)と呼ばれる新しいタイプのGNNを提案する。 提案手法は,HotpotQA上でのマルチホップ読解理解とFEVER上でのグラフベース事実検証という2つのNLPタスクで検証する。 どちらのタスクも複数の文書や文の推論を必要とする。 実験の結果,提案したGSNは標準のGNN方式よりも優れた性能を示した。

Recently Graph Neural Network (GNN) has been applied successfully to various NLP tasks that require reasoning, such as multi-hop machine reading comprehension. In this paper, we consider a novel case where reasoning is needed over graphs built from sequences, i.e. graph nodes with sequence data. Existing GNN models fulfill this goal by first summarizing the node sequences into fixed-dimensional vectors, then applying GNN on these vectors. To avoid information loss inherent in the early summarization and make sequential labeling tasks on GNN output feasible, we propose a new type of GNN called Graph Sequential Network (GSN), which features a new message passing algorithm based on co-attention between a node and each of its neighbors. We validate the proposed GSN on two NLP tasks: interpretable multi-hop reading comprehension on HotpotQA and graph based fact verification on FEVER. Both tasks require reasoning over multiple documents or sentences. Our experimental results show that the proposed GSN attains better performance than the standard GNN based methods.
翻訳日:2022-12-16 22:34:12 公開日:2020-04-04
# 入力空間と特徴空間における重み付き漁業識別分析

Weighted Fisher Discriminant Analysis in the Input and Feature Spaces ( http://arxiv.org/abs/2004.01857v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Milad Sikaroudi, H.R. Tizhoosh, Fakhri Karray, Mark Crowley(参考訳) fisher discriminant analysis (fda) は、データのクラス内およびクラス間散乱を最小化し、最大化するサブスペース学習手法である。 FDAでは、全てのクラスは同じ方法で扱われるが、一部のクラスは他のクラスよりも近い。 食品医薬品局(FDA)は、このFDAの欠点に対処するために2組のクラスに重みを割り当てている。 本稿では,コサインを重み付けしたFDAと,自動重み付けされたFDAを提案する。 また,既存および新規に提案された重み付けされたカーネルFDAを確立するために,機能領域における重み付けされたFDAを提案する。 ORL顔認識データセットに対する実験により,提案手法の有効性が示された。

Fisher Discriminant Analysis (FDA) is a subspace learning method which minimizes and maximizes the intra- and inter-class scatters of data, respectively. Although, in FDA, all the pairs of classes are treated the same way, some classes are closer than the others. Weighted FDA assigns weights to the pairs of classes to address this shortcoming of FDA. In this paper, we propose a cosine-weighted FDA as well as an automatically weighted FDA in which weights are found automatically. We also propose a weighted FDA in the feature space to establish a weighted kernel FDA for both existing and newly proposed weights. Our experiments on the ORL face recognition dataset show the effectiveness of the proposed weighting schemes.
翻訳日:2022-12-16 22:33:53 公開日:2020-04-04
# 生成モデルと推論オートエンコーダにおける構造類似度指標の利用に関する理論的考察

Theoretical Insights into the Use of Structural Similarity Index In Generative Models and Inferential Autoencoders ( http://arxiv.org/abs/2004.01864v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) 生成モデルと推論オートエンコーダは、主に最適化目的に$\ell_2$ normを使用する。 本稿では、知覚的に優れた画像を生成するために、生成モデルや推論オートエンコーダに構造類似度指数(SSIM)を用いる方法について理論的に論じる。 まず,SSIM,SSIM距離測定,SSIMカーネルについて概説する。 本稿では,SSIMカーネルが汎用カーネルであり,不条件および条件付きモーメントマッチングネットワークで使用できることを示す。 次に,ssim距離を変分オートエンコーダと非条件および条件付き生成型adversarial network (gans) で使用する方法を説明する。 最後に、最小二乗 GAN において $\ell_2$ 標準ではなく SSIM 距離を使うことを提案する。

Generative models and inferential autoencoders mostly make use of $\ell_2$ norm in their optimization objectives. In order to generate perceptually better images, this short paper theoretically discusses how to use Structural Similarity Index (SSIM) in generative models and inferential autoencoders. We first review SSIM, SSIM distance metrics, and SSIM kernel. We show that the SSIM kernel is a universal kernel and thus can be used in unconditional and conditional generated moment matching networks. Then, we explain how to use SSIM distance in variational and adversarial autoencoders and unconditional and conditional Generative Adversarial Networks (GANs). Finally, we propose to use SSIM distance rather than $\ell_2$ norm in least squares GAN.
翻訳日:2022-12-16 22:33:41 公開日:2020-04-04