このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200426となっている論文です。

PDF登録状況(公開日: 20200426)

TitleAuthorsAbstract論文公表日・翻訳日
# 濃度不等式に対するコンパクト表記法とユーザフレンドリーな結果

Some compact notations for concentration inequalities and user-friendly results ( http://arxiv.org/abs/1912.13463v2 )

ライセンス: Link先を確認
Kaizheng Wang(参考訳) 本稿では, 濃度不等式に対するコンパクトな表記法と, 流線型確率解析に有用であることを示す。 新しい式は、ランダム変数の典型的なサイズとテールを記述し、インセンティブ定数を多用することなく単純な操作を可能にする。 古典的漸近的表記法と現代の非漸近的末尾境界を一緒に橋渡しする。 様々な種類の例が有効性を示している。

This paper presents compact notations for concentration inequalities and convenient results to streamline probabilistic analysis. The new expressions describe the typical sizes and tails of random variables, allowing for simple operations without heavy use of inessential constants. They bridge classical asymptotic notations and modern non-asymptotic tail bounds together. Examples of different kinds demonstrate their efficacy.
翻訳日:2023-01-16 20:41:56 公開日:2020-04-26
# 統合型YOLOアルゴリズムによる蝶の検出と分類

Butterfly Detection and Classification Based on Integrated YOLO Algorithm ( http://arxiv.org/abs/2001.00361v2 )

ライセンス: Link先を確認
Bohan Liang and Shangxi Wu and Kaiyuan Xu and Jingyu Hao(参考訳) 昆虫は地球上に豊富に存在する種であり、昆虫の同定と同定の作業は複雑で困難である。 人工知能とデジタル画像処理を昆虫の自動識別に適用する方法は,最近の研究でホットな課題となっている。 本稿では,バタフライ写真の自動検出と分類認識の問題について検討し,バタフライ分類に適したバイオラベル法を提案する。 YOLOアルゴリズムに基づいて、トレーニング機構の異なるYOLOモデルの結果を合成することにより、YOLOアルゴリズムに基づく蝶の自動検出および分類認識アルゴリズムを提案する。 YOLOアルゴリズムの一般化能力を大幅に向上させ、小さなサンプル問題を解く能力を向上させる。 実験結果から,バタフライの自動検出・認識において,提案手法とYOLOアルゴリズムが精度が高く,認識率が高いことがわかった。

Insects are abundant species on the earth, and the task of identification and identification of insects is complex and arduous. How to apply artificial intelligence technology and digital image processing methods to automatic identification of insect species is a hot issue in current research. In this paper, the problem of automatic detection and classification recognition of butterfly photographs is studied, and a method of bio-labeling suitable for butterfly classification is proposed. On the basis of YOLO algorithm, by synthesizing the results of YOLO models with different training mechanisms, a butterfly automatic detection and classification recognition algorithm based on YOLO algorithm is proposed. It greatly improves the generalization ability of YOLO algorithm and makes it have better ability to solve small sample problems. The experimental results show that the proposed annotation method and integrated YOLO algorithm have high accuracy and recognition rate in butterfly automatic detection and recognition.
翻訳日:2023-01-16 04:22:20 公開日:2020-04-26
# BlendMask: トップダウンがインスタンスセグメンテーションのボトムアップに

BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation ( http://arxiv.org/abs/2001.00309v3 )

ライセンス: Link先を確認
Hao Chen, Kunyang Sun, Zhi Tian, Chunhua Shen, Yongming Huang, Youliang Yan(参考訳) インスタンスセグメンテーションは基本的なビジョンタスクの1つです。 近年,Msk R-CNNのような2段階アプローチよりもシンプルで効率的であることが多いため,完全畳み込み型インスタンス分割法が注目されている。 現在までに、このようなアプローチはモデルが類似の計算複雑性を持つ場合、マスク精度で2段階のMask R-CNN法に置き換わっている。 本研究では,インスタンスレベル情報と意味情報とを効果的に組み合わせ,より低い粒度でマスク予測を実現する。 私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。 提案するblendmaskは、非常に少ないチャネルでピクセル単位の位置センシティブなインスタンス特徴を効果的に予測し、1つの畳み込み層で各インスタンスのアテンションマップを学習することができ、推論が高速になる。 blendmaskは最先端のワンステージ検出フレームワークに容易に組み込むことができ、同じトレーニングスケジュールでr-cnnを20%高速にマスクできる。 blendmaskの軽量バージョンは、1つの1080ti gpuカードで25fpsで34.2%の$ mapを達成した。 その単純さと有効性から、私たちのBlendMaskが、幅広いインスタンスワイドな予測タスクの単純かつ強力なベースラインとして機能することを願っています。 コードはhttps://git.io/AdelaiDetで入手できる。

Instance segmentation is one of the fundamental vision tasks. Recently, fully convolutional instance segmentation methods have drawn much attention as they are often simpler and more efficient than two-stage approaches like Mask R-CNN. To date, almost all such approaches fall behind the two-stage Mask R-CNN method in mask precision when models have similar computation complexity, leaving great room for improvement. In this work, we achieve improved mask prediction by effectively combining instance-level information with semantic information with lower-level fine-granularity. Our main contribution is a blender module which draws inspiration from both top-down and bottom-up instance segmentation approaches. The proposed BlendMask can effectively predict dense per-pixel position-sensitive instance features with very few channels, and learn attention maps for each instance with merely one convolution layer, thus being fast in inference. BlendMask can be easily incorporated with the state-of-the-art one-stage detection frameworks and outperforms Mask R-CNN under the same training schedule while being 20% faster. A light-weight version of BlendMask achieves $ 34.2% $ mAP at 25 FPS evaluated on a single 1080Ti GPU card. Because of its simplicity and efficacy, we hope that our BlendMask could serve as a simple yet strong baseline for a wide range of instance-wise prediction tasks. Code is available at https://git.io/AdelaiDet
翻訳日:2023-01-16 04:11:39 公開日:2020-04-26
# ブラックホール熱力学の第二法則

Second law of black hole thermodynamics ( http://arxiv.org/abs/2001.02897v4 )

ライセンス: Link先を確認
Koji Azuma, Go Kato(参考訳) シュワルツシルトブラックホールのベーケンシュタイン・ホーキング領域の法則における単純なエントロピーが、その外側に対するブラックホールの正エネルギー粒子の量子絡み合いを定量化する「負」量子条件エントロピーに置き換えられた場合、ホーキング放射のオリジナルの対生成図とのパラドックスにより、ブラックホール力学と量子力学の最初の法則が解決される。 しかし、どの領域法が実際にブラックホールに採用されているかを実験的に判断する方法はなかった。 ここで、ノーヘア予想は、ベケンシュタインの一般化された領域の法則ではなく、修正された領域の法則から任意のブラックホールの熱力学の第二法則の完全な図を導出する。 第二法則は、ベッケンシュタインとは対照的に、事象の地平線望遠鏡で証明できる。 このことが確認できれば、修正された領域法則は量子情報の概念なしでは説明できない物理学の基本方程式の最初の例に当てはまることができる。

If simple entropy in the Bekenstein-Hawking area law for a Schwarzschild black hole is replaced with 'negative' quantum conditional entropy, which quantifies quantum entanglement, of positive-energy particles of the black hole relative to its outside, a paradox with the original pair-creation picture of Hawking radiation, the first law for black hole mechanics and quantum mechanics is resolved. However, there was no way to judge experimentally which area law is indeed adopted by black holes. Here, with the no-hair conjecture, we derive the perfect picture of a second law of black hole thermodynamics for any black hole from the modified area law, rather than Bekenstein's generalized one from the original area law. The second law is testable with an event horizon telescope, in contrast to Bekenstein's. If this is confirmed, the modified area law could be exalted to the first example of fundamental equations in physics which cannot be described without the concept of quantum information.
翻訳日:2023-01-13 05:47:46 公開日:2020-04-26
# 敵対的機械学習の政治

Politics of Adversarial Machine Learning ( http://arxiv.org/abs/2002.05648v3 )

ライセンス: Link先を確認
Kendra Albert, Jonathon Penney, Bruce Schneier, Ram Shankar Siva Kumar(参考訳) そのセキュリティ特性に加えて、敵の機械学習攻撃や防衛は政治的側面を持っている。 機械学習システムの主題とそれらをデプロイする人たちの両方に対して、特定の選択肢を有効または限定し、市民の自由と人権のリスクを生じさせる。 本稿では, 科学技術研究, 人類学, 人権文学の知見をもとに, 敵対的攻撃に対する防御が, 敵に対する攻撃の抑制や機械学習システムの調査の制限にどのように役立つかを明らかにする。 これを具体化するために、摂動、モデル反転、メンバーシップ推論などの攻撃が社会的に望ましい目的にどのように使用できるかという実例を用いる。 この分析の予測は悲惨に思えるかもしれないが、希望はある。 商用スパイウェア産業における人権問題に対処するための取り組みは、MLシステムが権威主義的な目的ではなく民主的な目的を達成するための同様の措置のガイダンスを提供する。

In addition to their security properties, adversarial machine-learning attacks and defenses have political dimensions. They enable or foreclose certain options for both the subjects of the machine learning systems and for those who deploy them, creating risks for civil liberties and human rights. In this paper, we draw on insights from science and technology studies, anthropology, and human rights literature, to inform how defenses against adversarial attacks can be used to suppress dissent and limit attempts to investigate machine learning systems. To make this concrete, we use real-world examples of how attacks such as perturbation, model inversion, or membership inference can be used for socially desirable ends. Although the predictions of this analysis may seem dire, there is hope. Efforts to address human rights concerns in the commercial spyware industry provide guidance for similar measures to ensure ML systems serve democratic, not authoritarian ends
翻訳日:2023-01-05 00:57:00 公開日:2020-04-26
# 確率勾配の高速化のためのスケジューリング再起動モーメント

Scheduled Restart Momentum for Accelerated Stochastic Gradient Descent ( http://arxiv.org/abs/2002.10583v2 )

ライセンス: Link先を確認
Bao Wang, Tan M. Nguyen, Andrea L. Bertozzi, Richard G. Baraniuk, Stanley J. Osher(参考訳) 一定の運動量を持つ確率勾配降下(SGD)とその変種であるAdamは、ディープニューラルネットワーク(DNN)を訓練するための最適化アルゴリズムである。 DNNトレーニングは非常に高価なので、収束のスピードアップに大きな関心がある。 ネステロフ加速勾配(nag)は、特別に設計された運動量を用いて凸最適化のための勾配降下(gd)の収束率を改善するが、不正確な勾配(sgdなど)を使用すると誤差を蓄積し、最も収束が遅くなり、最悪に分岐する。 本稿では,DNNのトレーニングのための新しいNAGスタイルスキームであるSchduled Restart SGD(SRSGD)を提案する。 SRSGDはNAGの運動量の増加によってSGDの運動量を置き換えるが、スケジュールに従って運動量を0にリセットすることで繰り返しを安定化させる。 例えば、画像分類のためのResNet200のトレーニングでは、SRSGDは22.13%のベンチマークに対して20.93%のエラー率を達成する。 ネットワークが深まるにつれて、これらの改善はより重要になる。 さらに、CIFARとImageNetの両方で、SRSGDはSGDベースラインと比較して、トレーニングのエポックが大幅に少なく、類似またはさらに良いエラー率に達する。

Stochastic gradient descent (SGD) with constant momentum and its variants such as Adam are the optimization algorithms of choice for training deep neural networks (DNNs). Since DNN training is incredibly computationally expensive, there is great interest in speeding up the convergence. Nesterov accelerated gradient (NAG) improves the convergence rate of gradient descent (GD) for convex optimization using a specially designed momentum; however, it accumulates error when an inexact gradient is used (such as in SGD), slowing convergence at best and diverging at worst. In this paper, we propose Scheduled Restart SGD (SRSGD), a new NAG-style scheme for training DNNs. SRSGD replaces the constant momentum in SGD by the increasing momentum in NAG but stabilizes the iterations by resetting the momentum to zero according to a schedule. Using a variety of models and benchmarks for image classification, we demonstrate that, in training DNNs, SRSGD significantly improves convergence and generalization; for instance in training ResNet200 for ImageNet classification, SRSGD achieves an error rate of 20.93% vs. the benchmark of 22.13%. These improvements become more significant as the network grows deeper. Furthermore, on both CIFAR and ImageNet, SRSGD reaches similar or even better error rates with significantly fewer training epochs compared to the SGD baseline.
翻訳日:2022-12-29 02:36:20 公開日:2020-04-26
# 分散機械学習のセキュリティ:セキュアdsvm設計のためのゲーム理論的アプローチ

Security of Distributed Machine Learning: A Game-Theoretic Approach to Design Secure DSVM ( http://arxiv.org/abs/2003.04735v2 )

ライセンス: Link先を確認
Rui Zhang, Quanyan Zhu(参考訳) 分散機械学習アルゴリズムは、大規模ネットワーク上の巨大なデータセットを処理する上で重要な役割を果たす。 しかし、情報通信技術(ICT)による機械学習への依存度の増加は、サイバー脅威に対して本質的に脆弱である。 この研究は、データ中毒やネットワーク攻撃から学習を保護するセキュアな分散アルゴリズムの開発を目的としている。 我々は,分散サポートベクトルマシン(SVM)を使用する学習者と,トレーニングデータやラベルを変更することができる攻撃者の相反する目標を捉えるゲーム理論の枠組みを確立する。 我々は,各ノードにおける学習者のリアルタイムな反応を解析し,相手の行動に対処する完全分散反復アルゴリズムを開発した。 数値的な結果から,分散SVMは異なるタイプの攻撃で失敗する傾向にあり,ネットワーク構造や攻撃能力に強い依存があることが分かる。

Distributed machine learning algorithms play a significant role in processing massive data sets over large networks. However, the increasing reliance on machine learning on information and communication technologies (ICTs) makes it inherently vulnerable to cyber threats. This work aims to develop secure distributed algorithms to protect the learning from data poisoning and network attacks. We establish a game-theoretic framework to capture the conflicting goals of a learner who uses distributed support vector machines (SVMs) and an attacker who is capable of modifying training data and labels. We develop a fully distributed and iterative algorithm to capture real-time reactions of the learner at each node to adversarial behaviors. The numerical results show that distributed SVM is prone to fail in different types of attacks, and their impact has a strong dependence on the network structure and attack capabilities.
翻訳日:2022-12-25 14:17:50 公開日:2020-04-26
# 逆学習による知識グラフ補完のためのユーザ-項目間相互作用データからの暗黙的エンティティの選好

Mining Implicit Entity Preference from User-Item Interaction Data for Knowledge Graph Completion via Adversarial Learning ( http://arxiv.org/abs/2003.12718v3 )

ライセンス: Link先を確認
Gaole He, Junyi Li, Wayne Xin Zhao, Peiju Liu and Ji-Rong Wen(参考訳) 知識グラフ補完(KGC)の課題は、行方不明の事実情報を知識グラフ(KG)で自動的に推測することである。 本稿では,KGCタスクの改善のために,リッチなユーザ・イテムインタラクションデータ(略してユーザ・インタラクションデータ)を活用することを目的とした,新たな視点を提案する。 我々の研究は、多くのKGエンティティがアプリケーションシステムのオンラインアイテムに対応しているという観察にインスパイアされている。 しかし,2種類のデータソースは本質的な特性が非常に異なり,単純な融合戦略によって本来の性能を損なう可能性がある。 そこで本研究では, kgcタスクにユーザインタラクションデータを活用することで, 新たな学習手法を提案する。 当社のジェネレータは,ユーザインタラクションデータから分離され,判別器の性能向上に寄与する。 識別装置は、ユーザインタラクションデータから得られた有用な情報を入力として取り出し、徐々に評価能力を高めて、ジェネレータが生成した偽のサンプルを識別する。 ユーザの暗黙のエンティティ嗜好を発見するために,グラフニューラルネットワークに基づく複雑な協調学習アルゴリズムを設計し,判別器と共同で最適化する。 このようなアプローチは、KGCタスクにおけるデータ不均一性と意味複雑性の問題を軽減するのに有効である。 実世界の3つのデータセットに対する大規模な実験は、KGCタスクに対する我々のアプローチの有効性を実証した。

The task of Knowledge Graph Completion (KGC) aims to automatically infer the missing fact information in Knowledge Graph (KG). In this paper, we take a new perspective that aims to leverage rich user-item interaction data (user interaction data for short) for improving the KGC task. Our work is inspired by the observation that many KG entities correspond to online items in application systems. However, the two kinds of data sources have very different intrinsic characteristics, and it is likely to hurt the original performance using simple fusion strategy. To address this challenge, we propose a novel adversarial learning approach by leveraging user interaction data for the KGC task. Our generator is isolated from user interaction data, and serves to improve the performance of the discriminator. The discriminator takes the learned useful information from user interaction data as input, and gradually enhances the evaluation capacity in order to identify the fake samples generated by the generator. To discover implicit entity preference of users, we design an elaborate collaborative learning algorithms based on graph neural networks, which will be jointly optimized with the discriminator. Such an approach is effective to alleviate the issues about data heterogeneity and semantic complexity for the KGC task. Extensive experiments on three real-world datasets have demonstrated the effectiveness of our approach on the KGC task.
翻訳日:2022-12-18 23:18:36 公開日:2020-04-26
# PolarNet: オンラインLiDARポイントクラウドセマンティックセグメンテーションのためのグリッド表現の改善

PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation ( http://arxiv.org/abs/2003.14032v2 )

ライセンス: Link先を確認
Yang Zhang, Zixiang Zhou, Philip David, Xiangyu Yue, Zerong Xi, Boqing Gong, Hassan Foroosh(参考訳) 自動運転システムにおける細かな認識の必要性は、最近、シングルスキャンlidarのオンラインセマンティクスセグメンテーションに関する研究を増加させている。 新たなデータセットや技術進歩にもかかわらず、(1)限られたハードウェアでのほぼリアルタイムのレイテンシの必要性、(2)空間をまたがるLiDARポイントの不均一あるいは長い尾の分布、(3)非常にきめ細かなセマンティッククラスの増加という3つの理由により、依然として困難である。 上記すべての課題に共同で取り組むために、我々は、新しいLiDAR固有の、最寄りのセグメンテーションアルゴリズムであるPolarNetを提案する。 我々の極性鳥眼ビュー表現は、共通の球面または鳥眼ビュー投影を使用する代わりに、極性座標系における格子セル間の点のバランスを保ち、分割ネットワークの注意を半径軸に沿った点の長い尾の分布と間接的に一致させる。 我々の符号化方式は, リアルタイムスループットを維持しつつ, 実都市LiDAR単走査の3つの大々的に異なるセグメンテーションデータセットにおいて, mIoUを大幅に増大させることがわかった。

The need for fine-grained perception in autonomous driving systems has resulted in recently increased research on online semantic segmentation of single-scan LiDAR. Despite the emerging datasets and technological advancements, it remains challenging due to three reasons: (1) the need for near-real-time latency with limited hardware; (2) uneven or even long-tailed distribution of LiDAR points across space; and (3) an increasing number of extremely fine-grained semantic classes. In an attempt to jointly tackle all the aforementioned challenges, we propose a new LiDAR-specific, nearest-neighbor-free segmentation algorithm - PolarNet. Instead of using common spherical or bird's-eye-view projection, our polar bird's-eye-view representation balances the points across grid cells in a polar coordinate system, indirectly aligning a segmentation network's attention with the long-tailed distribution of the points along the radial axis. We find that our encoding scheme greatly increases the mIoU in three drastically different segmentation datasets of real urban LiDAR single scans while retaining near real-time throughput.
翻訳日:2022-12-18 01:14:32 公開日:2020-04-26
# 流動不安定性調査のための完全CVDL法

Complete CVDL Methodology for Investigating Hydrodynamic Instabilities ( http://arxiv.org/abs/2004.03374v2 )

ライセンス: Link先を確認
Re'em Harel, Matan Rusanovsky, Yehonatan Fridman, Assaf Shimony, Gal Oren(参考訳) 流体力学において、最も重要な研究分野の1つは流体力学の不安定性と異なる流れ状態におけるその進化である。 この不安定性の調査は、高非線形力学に関するものである。 現在、このような現象解析モデル、実験、シミュレーションを理解するために3つの主要な手法が使われており、これらは全て主に人間の専門知識を用いて研究され、相関している。 本研究は,コンピュータビジョンとDeep Learning(CVDL,Deep Computer-Vision)の分野における最近の進歩を応用して,この研究の成果の大部分を分析・分析できると主張している。 具体的には,画像検索,テンプレートマッチング,パラメータ回帰,時空間予測など,最先端技術を対象に,定量的かつ質的なメリットを提供するためのターゲットと評価を行う。 そのために、最も代表的な不安定性であるRayleigh-Taylorの研究に集中し、その振る舞いをシミュレートし、オープンソースの最先端アノテーションデータベース(RayleAI)を作成します。 最後に,適応実験結果と新しい物理損失手法を用いて,予測結果と実際の物理的現実との対応性を検証し,モデルの有効性を検証した。 この研究で開発・証明された手法は、様々な物理系を研究するために流体力学の分野の物理学者にとって必須の道具となり、他の不安定性研究への伝達学習によっても利用できる。 これらの手法の一部は、既存のシミュレーション結果に容易に適用できる。 この作業のために作成されたすべてのモデルとデータセットは、https://github.com/scientific-computing-nrcn/SimulAIで公開されている。

In fluid dynamics, one of the most important research fields is hydrodynamic instabilities and their evolution in different flow regimes. The investigation of said instabilities is concerned with the highly non-linear dynamics. Currently, three main methods are used for understanding of such phenomenon - namely analytical models, experiments and simulations - and all of them are primarily investigated and correlated using human expertise. In this work we claim and demonstrate that a major portion of this research effort could and should be analysed using recent breakthrough advancements in the field of Computer Vision with Deep Learning (CVDL, or Deep Computer-Vision). Specifically, we target and evaluate specific state-of-the-art techniques - such as Image Retrieval, Template Matching, Parameters Regression and Spatiotemporal Prediction - for the quantitative and qualitative benefits they provide. In order to do so we focus in this research on one of the most representative instabilities, the Rayleigh-Taylor one, simulate its behaviour and create an open-sourced state-of-the-art annotated database (RayleAI). Finally, we use adjusted experimental results and novel physical loss methodologies to validate the correspondence of the predicted results to actual physical reality to prove the models efficiency. The techniques which were developed and proved in this work can be served as essential tools for physicists in the field of hydrodynamics for investigating a variety of physical systems, and also could be used via Transfer Learning to other instabilities research. A part of the techniques can be easily applied on already exist simulation results. All models as well as the data-set that was created for this work, are publicly available at: https://github.com/scientific-computing-nrcn/SimulAI.
翻訳日:2022-12-17 04:29:46 公開日:2020-04-26
# 画像診断支援のための問合せ型EHR要約

Query-Focused EHR Summarization to Aid Imaging Diagnosis ( http://arxiv.org/abs/2004.04645v2 )

ライセンス: Link先を確認
Denis Jered McInerney, Borna Dabiri, Anne-Sophie Touret, Geoffrey Young, Jan-Willem van de Meent, Byron C. Wallace(参考訳) 電子健康記録(ehrs)は、診断を行う際に放射線科医や他の医師に重要な文脈情報を提供する。 残念なことに、患者の記録には数百のメモとレポートが含まれている可能性があるため、ケースに割り当てられた短い時間でそれらの中の関連情報を識別するのが非常に難しい。 患者記録から関連するテキストスニペットを抽出するモデルを提案し評価し, 1つ以上の診断を考慮に入れるための粗い症例要約を提供する。 これは、直接監督(すなわち、医療記録の特定の診断に関連するスニペットの医師の注釈)は、大規模に収集するのに非常に高価であるため、難しい。 我々は,「未来」レコードに記録された国際疾病分類(icd)符号群を「下流」診断のためのノイズプロキシとして使用する遠隔監視戦略を提案する。 これを用いることで、トランスフォーマリンモデルを用いて、潜在的な診断に基づいて抽出要約を行うように訓練する。 このモデルは、診断医が提供する潜在的な診断(クエリ)を前提とした注意機構を定義する。 我々は、ボストンのブリガム・アンド・ウーマンズ病院とMIMIC-III(後者は再現性を促進するため)のEHRデータに基づいて、このモデルのバリエーションを訓練し、評価する。 放射線科医による評価は、これらの遠方の教師付きモデルが教師なしアプローチよりも優れた抽出要約をもたらすことを示している。 このようなモデルは、潜在的な診断に臨床的に関連のある過去の患者の報告で文章を識別することで診断を助けることができる。

Electronic Health Records (EHRs) provide vital contextual information to radiologists and other physicians when making a diagnosis. Unfortunately, because a given patient's record may contain hundreds of notes and reports, identifying relevant information within these in the short time typically allotted to a case is very difficult. We propose and evaluate models that extract relevant text snippets from patient records to provide a rough case summary intended to aid physicians considering one or more diagnoses. This is hard because direct supervision (i.e., physician annotations of snippets relevant to specific diagnoses in medical records) is prohibitively expensive to collect at scale. We propose a distantly supervised strategy in which we use groups of International Classification of Diseases (ICD) codes observed in 'future' records as noisy proxies for 'downstream' diagnoses. Using this we train a transformer-based neural model to perform extractive summarization conditioned on potential diagnoses. This model defines an attention mechanism that is conditioned on potential diagnoses (queries) provided by the diagnosing physician. We train (via distant supervision) and evaluate variants of this model on EHR data from Brigham and Women's Hospital in Boston and MIMIC-III (the latter to facilitate reproducibility). Evaluations performed by radiologists demonstrate that these distantly supervised models yield better extractive summaries than do unsupervised approaches. Such models may aid diagnosis by identifying sentences in past patient reports that are clinically relevant to a potential diagnosis.
翻訳日:2022-12-15 02:10:07 公開日:2020-04-26
# LiteDenseNet:ハイパースペクトル画像分類のための軽量ネットワーク

LiteDenseNet: A Lightweight Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2004.08112v2 )

ライセンス: Link先を確認
Rui Li and Chenxi Duan(参考訳) 近年,ディープラーニングに基づくハイパースペクトル画像(HSI)の分類が注目されている。 しかし、データ駆動アルゴリズムの一種として、ディープラーニングは通常、大量の計算リソースと高品質のラベル付きデータセットを必要とするが、高性能コンピューティングとデータアノテーションのコストは高価である。 本稿では,大量の計算やラベル付きサンプルへの依存を減らすために,ハイパースペクトル画像分類のための密度ネットに基づく軽量ネットワークアーキテクチャ (litedensenet) を提案する。 GoogLeNetとPeleeNetにインスパイアされた我々は、入力の局所的およびグローバル的特徴を捉えるために、3次元の双方向の高密度層を設計する。 畳み込みは計算集約的な演算であるため、計算コストとパラメータサイズをさらに削減するためにグループ畳み込みを導入する。 したがって、パラメータの数と計算の消費量は、反正のディープラーニングメソッドよりも可観測的に少ないため、litedensenetはよりシンプルなアーキテクチャと高い効率を持っている。 6つの広く使用されているハイパースペクトルデータセットに関する一連の定量的経験から,ラベル付きサンプルの欠如が深刻であるにも関わらず,提案したLiteDenseNetが最先端のパフォーマンスを得ることが示された。

Hyperspectral Image (HSI) classification based on deep learning has been an attractive area in recent years. However, as a kind of data-driven algorithm, deep learning method usually requires numerous computational resources and high-quality labelled dataset, while the cost of high-performance computing and data annotation is expensive. In this paper, to reduce dependence on massive calculation and labelled samples, we propose a lightweight network architecture (LiteDenseNet) based on DenseNet for Hyperspectral Image Classification. Inspired by GoogLeNet and PeleeNet, we design a 3D two-way dense layer to capture the local and global features of the input. As convolution is a computationally intensive operation, we introduce group convolution to decrease calculation cost and parameter size further. Thus, the number of parameters and the consumptions of calculation are observably less than contrapositive deep learning methods, which means LiteDenseNet owns simpler architecture and higher efficiency. A series of quantitative experiences on 6 widely used hyperspectral datasets show that the proposed LiteDenseNet obtains the state-of-the-art performance, even though when the absence of labelled samples is severe.
翻訳日:2022-12-12 13:32:56 公開日:2020-04-26
# フリーテキスト・メディカル・ナラティブからの医学的副次事象検出のための深層学習による自然言語処理:全股関節置換脱臼の検出を事例として

Natural Language Processing with Deep Learning for Medical Adverse Event Detection from Free-Text Medical Narratives: A Case Study of Detecting Total Hip Replacement Dislocation ( http://arxiv.org/abs/2004.08333v2 )

ライセンス: Link先を確認
Alireza Borjali, Martin Magneli, David Shin, Henrik Malchau, Orhun K. Muratoglu, Kartik M. Varadarajan(参考訳) 自由文医療物語からの医療有害事象(AE)の正確な検出は困難である。 ディープラーニングを用いた自然言語処理(NLP)は,すでにフリーテキストデータを解析する大きな可能性を示しているが,医学的AE検出への応用は限られている。 そこで本研究では,標準(放射線ノート)と非標準(フォローアップ電話ノート)による人工股関節置換術後の股関節脱臼AE検出のための深層学習ベースNLP(DL-NLP)モデルを提案する。 我々は,これらのモデルに対して,ML-NLP(ML-NLP)モデルを用いたベンチマークを行った。また,多施設のオルソペディックレジストリにおいて,これらの股関節脱臼AEを捕捉するためのICD(International Classification of Diseases)とCPT(Current Procedural Terminology)符号の精度を評価した。 すべてのDL-NLPモデルは、すべてのML-NLPモデルより優れており、畳み込みニューラルネットワーク(CNN)モデルは、最高の全体的なパフォーマンスを達成する(Kappa = 0.97、フォローアップ電話ノートはKappa = 1.00)。 一方, 股関節脱臼症例のicd/cpt符号は75.24%に留まり, 治療の質と予後を改善するために, 大規模整形外科登録に使用するモデルの可能性を示した。

Accurate and timely detection of medical adverse events (AEs) from free-text medical narratives is challenging. Natural language processing (NLP) with deep learning has already shown great potential for analyzing free-text data, but its application for medical AE detection has been limited. In this study we proposed deep learning based NLP (DL-NLP) models for efficient and accurate hip dislocation AE detection following total hip replacement from standard (radiology notes) and non-standard (follow-up telephone notes) free-text medical narratives. We benchmarked these proposed models with a wide variety of traditional machine learning based NLP (ML-NLP) models, and also assessed the accuracy of International Classification of Diseases (ICD) and Current Procedural Terminology (CPT) codes in capturing these hip dislocation AEs in a multi-center orthopaedic registry. All DL-NLP models out-performed all of the ML-NLP models, with a convolutional neural network (CNN) model achieving the best overall performance (Kappa = 0.97 for radiology notes, and Kappa = 1.00 for follow-up telephone notes). On the other hand, the ICD/CPT codes of the patients who sustained a hip dislocation AE were only 75.24% accurate, showing the potential of the proposed model to be used in largescale orthopaedic registries for accurate and efficient hip dislocation AE detection to improve the quality of care and patient outcome.
翻訳日:2022-12-12 12:48:48 公開日:2020-04-26
# HCM: ニューラルネットワークアーキテクチャのためのハードウェア対応複雑度メトリクス

HCM: Hardware-Aware Complexity Metric for Neural Network Architectures ( http://arxiv.org/abs/2004.08906v2 )

ライセンス: Link先を確認
Alex Karbachevsky, Chaim Baskin, Evgenii Zheltonozhskii, Yevgeny Yermolin, Freddy Gabbay, Alex M. Bronstein, Avi Mendelson(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、音声認識、自然言語処理など、多くの分野で一般的になっている。 CNNハードウェアアクセラレータは、既に多くのSoCアーキテクチャの一部として含まれているが、リソース制限されたデバイスで高い精度を達成するというタスクは、主に効率的なソリューションを達成するためにバランスをとる必要のある設計パラメータが多数あるため、依然として難しいと考えられている。 量子化技術は、ネットワークパラメータに適用すると、電力と面積の削減につながり、通信と計算の比率も変化する可能性がある。 結果として、いくつかのアルゴリズム的解法はメモリ帯域幅や計算資源の不足に悩まされ、ハードウェアの制約により期待された性能を達成できなかった。 したがって、システムデザイナとマイクロアーキテクチャーは、開発初期段階において、最終製品(例えば、期待される省電力、面積、精度)における彼らの高いレベルの決定(例えば、CNNのアーキテクチャと、そのパラメータを表すために使用されるビットの量)の影響を理解する必要がある。 残念ながら、既存のツールはそのような決定を支持できない。 本稿では,ニューラルネットワークアーキテクチャのシステムデザイナが,最終製品に対するアーキテクチャおよびマイクロアーキテクチャ決定の影響を予測し,プロジェクトライフサイクル全体(特に初期段階)を通じて支援することを目的とした,ハードウェア対応の複雑性メトリクスを紹介する。 提案手法は、リアルタイム組み込みシステムなどのリソース制限されたデバイス上でのニューラルネットワークモデルの設計代替案の評価にどのように役立つかを示し、初期の設計ミスを避ける。

Convolutional Neural Networks (CNNs) have become common in many fields including computer vision, speech recognition, and natural language processing. Although CNN hardware accelerators are already included as part of many SoC architectures, the task of achieving high accuracy on resource-restricted devices is still considered challenging, mainly due to the vast number of design parameters that need to be balanced to achieve an efficient solution. Quantization techniques, when applied to the network parameters, lead to a reduction of power and area and may also change the ratio between communication and computation. As a result, some algorithmic solutions may suffer from lack of memory bandwidth or computational resources and fail to achieve the expected performance due to hardware constraints. Thus, the system designer and the micro-architect need to understand at early development stages the impact of their high-level decisions (e.g., the architecture of the CNN and the amount of bits used to represent its parameters) on the final product (e.g., the expected power saving, area, and accuracy). Unfortunately, existing tools fall short of supporting such decisions. This paper introduces a hardware-aware complexity metric that aims to assist the system designer of the neural network architectures, through the entire project lifetime (especially at its early stages) by predicting the impact of architectural and micro-architectural decisions on the final product. We demonstrate how the proposed metric can help evaluate different design alternatives of neural network models on resource-restricted devices such as real-time embedded systems, and to avoid making design mistakes at early stages.
翻訳日:2022-12-12 00:41:37 公開日:2020-04-26
# 曖昧さ回避の道徳的負担

The Moral Burden of Ambiguity Aversion ( http://arxiv.org/abs/2004.08892v2 )

ライセンス: Link先を確認
Brian Jabarian(参考訳) 論文 "egalitarianism under severe uncertainty", philosophy and public affairs, 46:3, 2018, thomas rowe and alex voorhoeve では、不確実性に満ちたケースについて独自の道徳的決定論を展開し、"pluralist egalitarianism under uncertainty" と呼ばれる。 本稿ではまず,彼らの見解と議論をスケッチする。 次に、健康倫理における選択シナリオにどのように適用されるのかを論じて、彼らの道徳的決定理論について詳しく説明する。 最後に、エルスバーグの2段階の思考実験が彼らの理論の原理の核に挑戦することを提案する。 このような実験において、多元主義的平等主義(multipleist egalitarianism)は、私の思考実験を同時に、あるいは連続的に考えるにせよ、間違った、道徳的に、合理的に、行動の過程を示唆しているように思われる。

In their article, "Egalitarianism under Severe Uncertainty", Philosophy and Public Affairs, 46:3, 2018, Thomas Rowe and Alex Voorhoeve develop an original moral decision theory for cases under uncertainty, called "pluralist egalitarianism under uncertainty". In this paper, I firstly sketch their views and arguments. I then elaborate on their moral decision theory by discussing how it applies to choice scenarios in health ethics. Finally, I suggest a new two-stage Ellsberg thought experiment challenging the core of the principle of their theory. In such an experiment pluralist egalitarianism seems to suggest the wrong, morally and rationally speaking, course of action -- no matter whether I consider my thought experiment in a simultaneous or a sequential setting.
翻訳日:2022-12-12 00:32:14 公開日:2020-04-26
# 時系列クラスタリングに関するベンチマーク研究

A Benchmark Study on Time Series Clustering ( http://arxiv.org/abs/2004.09546v2 )

ライセンス: Link先を確認
Ali Javed, Byung Suk Lee, Dona M. Rizzo(参考訳) 本稿では,カリフォルニア大学リバーサイド校(UCR)のアーカイブで現在入手可能な時系列データセットを利用した,最初の時系列クラスタリングベンチマークを提案する。 具体的には,クラスタリングアルゴリズムの3つのカテゴリ(部分的,階層的,密度ベース)と3種類の距離測定(ユークリッド,動的時間ワープ,形状ベース)を表す8つの一般的なクラスタリング手法を検討した。 ベンチマークを可能な限り偏見のないものにするために、私たちは6つの制限を定めました。 フェーズ評価アプローチは、データセットレベルの評価メトリクスを要約し、結果について議論するために設計された。 報告されているデータセットレベルの評価指標は、さまざまな研究質問に答えるために評価フレームワークの設計に使用される可能性がある。

This paper presents the first time series clustering benchmark utilizing all time series datasets currently available in the University of California Riverside (UCR) archive -- the state of the art repository of time series data. Specifically, the benchmark examines eight popular clustering methods representing three categories of clustering algorithms (partitional, hierarchical and density-based) and three types of distance measures (Euclidean, dynamic time warping, and shape-based). We lay out six restrictions with special attention to making the benchmark as unbiased as possible. A phased evaluation approach was then designed for summarizing dataset-level assessment metrics and discussing the results. The benchmark study presented can be a useful reference for the research community on its own; and the dataset-level assessment metrics reported may be used for designing evaluation frameworks to answer different research questions.
翻訳日:2022-12-11 17:53:12 公開日:2020-04-26
# プログラマブルスイッチのランタイム検証に向けて

Towards Runtime Verification of Programmable Switches ( http://arxiv.org/abs/2004.10887v2 )

ライセンス: Link先を確認
Apoorv Shukla, Kevin Hudemann, Zsolt V\'agi, Lily H\"ugerich, Georgios Smaragdakis, Stefan Schmid, Artur Hecker, Anja Feldmann(参考訳) 人間の関与なしにP4プログラムのソフトウェアバグをパッチすることは可能か? ソフトウェアテストの進歩とP4プログラムの構造が原因で,その多くが部分的に実現可能であることを示す。 私たちの洞察では、ランタイム検証は、コンパイル時に検出されないものであっても、機械学習誘導ファジィによってバグを検出することができる。 これにより、Tarantulaのようなソフトウェアテスト技術を使用して、P4プログラムのバグのより自動化されたリアルタイムなローカライズが可能になる。 P4プログラムのバグがローカライズされると、P4のプログラマブルな性質のために欠陥コードにパッチが当てられる。 さらに、プラットフォーム依存のバグも検出できる。 p4_14からp4_16(latest version)では,プログラマブルブロックの増加に伴い,p4プログラムのパッチ性が向上している。 この目的のために p6を設計、開発、評価します (a)検出する。 (b)ローカライズし、 c) P4プログラムのバグを最小限のヒューマンインタラクションでパッチする。 P6 test P4 switch non-intrusively, すなわち、バグを検出してローカライズするためにP4プログラムを変更する必要はない。 2つの異なるswitchプラットフォームにデプロイされた8つのパブリックなp4アプリケーションプログラム、behavior model(bmv2)とtofinoの7つの既存のバグを検出し、パッチを当てるためにp6プロトタイプを使用しました。 評価の結果,Switch.p4などのP4プログラムでは,バグ検出ベースラインが大幅に向上し,パケットが減り,バグが修正された。

Is it possible to patch software bugs in P4 programs without human involvement? We show that this is partially possible in many cases due to advances in software testing and the structure of P4 programs. Our insight is that runtime verification can detect bugs, even those that are not detected at compile-time, with machine learning-guided fuzzing. This enables a more automated and real-time localization of bugs in P4 programs using software testing techniques like Tarantula. Once the bug in a P4 program is localized, the faulty code can be patched due to the programmable nature of P4. In addition, platform-dependent bugs can be detected. From P4_14 to P4_16 (latest version), our observation is that as the programmable blocks increase, the patchability of P4 programs increases accordingly. To this end, we design, develop, and evaluate P6 that (a) detects, (b) localizes, and (c) patches bugs in P4 programs with minimal human interaction. P6 tests P4 switch non-intrusively, i.e., requires no modification to the P4 program for detecting and localizing bugs. We used a P6 prototype to detect and patch seven existing bugs in eight publicly available P4 application programs deployed on two different switch platforms: behavioral model (bmv2) and Tofino. Our evaluation shows that P6 significantly outperforms bug detection baselines while generating fewer packets and patches bugs in P4 programs such as switch.p4 without triggering any regressions.
翻訳日:2022-12-10 18:49:24 公開日:2020-04-26
# 新型コロナウイルスの胸部CT画像セグメンテーション - 深層畳み込みニューラルネットワークソリューション

COVID-19 Chest CT Image Segmentation -- A Deep Convolutional Neural Network Solution ( http://arxiv.org/abs/2004.10987v2 )

ライセンス: Link先を確認
Qingsen Yan, Bo Wang, Dong Gong, Chuan Luo, Wei Zhao, Jianhu Shen, Qinfeng Shi, Shuo Jin, Liang Zhang and Zheng You(参考訳) 新型コロナウイルス(COVID-19)が検出され、2019年末以降、世界中の各地で急速に広まり、CT画像がRT-PCR検査に欠かせない代替手段として利用されている。 しかし、CT画像の純粋な手動分割は、疑わしい症例の増加によって深刻な課題に直面するため、新型コロナウイルス感染症の正確かつ自動分割のための緊急の要件が生じる。 残念ながら、新型コロナウイルス感染のイメージング特性は多様で背景と似ているため、既存の医療画像分割手法では十分な性能が得られない。 本研究では,胸部CT画像と新型コロナウイルス感染のセグメンテーションに適した,新しい深部畳み込みニューラルネットワークの構築を試みる。 新型コロナウイルス感染が確認された851例の胸部CT画像165,667点からなる胸部CT画像データセットをまず,維持する。 本研究は, 感染性肺の境界線がグローバルな強度を調節することで高められるという観察に刺激され, 提案した深部CNNでは, COVID-19感染分節の特徴のグローバルな特性を適応的に調整する特徴変化ブロックを導入する。 提案したFVブロックは,多種多様なケースに対して効果的かつ適応的に特徴表現の能力を高めることができる。 多様な外観・形状の高度な感染領域を扱うため, プログレッシブ・アトラス空間ピラミッドプールを提案することで, 異なるスケールで特徴を融合する。 中国とドイツで収集したデータについて実験を行い,提案する深層cnnが効果的に性能を発揮することを示した。

A novel coronavirus disease 2019 (COVID-19) was detected and has spread rapidly across various countries around the world since the end of the year 2019, Computed Tomography (CT) images have been used as a crucial alternative to the time-consuming RT-PCR test. However, pure manual segmentation of CT images faces a serious challenge with the increase of suspected cases, resulting in urgent requirements for accurate and automatic segmentation of COVID-19 infections. Unfortunately, since the imaging characteristics of the COVID-19 infection are diverse and similar to the backgrounds, existing medical image segmentation methods cannot achieve satisfactory performance. In this work, we try to establish a new deep convolutional neural network tailored for segmenting the chest CT images with COVID-19 infections. We firstly maintain a large and new chest CT image dataset consisting of 165,667 annotated chest CT images from 861 patients with confirmed COVID-19. Inspired by the observation that the boundary of the infected lung can be enhanced by adjusting the global intensity, in the proposed deep CNN, we introduce a feature variation block which adaptively adjusts the global properties of the features for segmenting COVID-19 infection. The proposed FV block can enhance the capability of feature representation effectively and adaptively for diverse cases. We fuse features at different scales by proposing Progressive Atrous Spatial Pyramid Pooling to handle the sophisticated infection areas with diverse appearance and shapes. We conducted experiments on the data collected in China and Germany and show that the proposed deep CNN can produce impressive performance effectively.
翻訳日:2022-12-10 09:29:14 公開日:2020-04-26
# 深層学習型検出器によるアップリンクNOOMAのパイロット間隔低減

Pilot Interval Reduction by Deep Learning Based Detectors in Uplink NOMA ( http://arxiv.org/abs/2004.12416v1 )

ライセンス: Link先を確認
Ahmet Emir, Ferdi Kara, Hakan Kaya(参考訳) 非直交多重アクセス(Noma)は直交多重アクセス(OMA)技術よりもスペクトル効率が高い。 受信機でチャネルが不明なアップリンク通信システムでは、異なる時間間隔で各ユーザから送信されるパイロット信号により、NOMAのスペクトル効率が低下する。 本研究では,基地局の利用者から送信されたパイロット信号に応答することが知られているdl-deep learningに基づく検出器について検討した。 利用者から1人のパイロットを送ることで、NOMAのスペクトル効率を維持することを目的としており、DL検出器の時間間隔を短縮する。

Non-Orthogonal Multiple Access (NOMA) has higher spectral efficiency than orthogonal multiple access (OMA) techniques. In uplink communication systems that the channel is not known at the receiver, pilot signals sent from each user in different time intervals have reduced the spectral efficiency of NOMA. In this study, in the uplink communication system, DL-deep learning based detectors which are known to respond to the pilot signals sent from the users at the base station have been researched. It is aimed to maintain the spectral efficiency of NOMA by sending a single pilot from users, thus reducing the time interval in the DL detectors.
翻訳日:2022-12-09 14:04:29 公開日:2020-04-26
# 6GにおけるユビキタスAIとフェデレーションラーニング

Towards Ubiquitous AI in 6G with Federated Learning ( http://arxiv.org/abs/2004.13563v1 )

ライセンス: Link先を確認
Yong Xiao and Guangming Shi and Marwan Krunz(参考訳) 5gセルラーシステムが世界中で活発に展開され、研究コミュニティは次の世代、すなわち6gの新しい技術進歩を探求し始めた。 6GはユビキタスAIという超フレキシブルなアーキテクチャの新しいビジョンに基づいて構築され、ネットワークシステムのあらゆる側面に人間のようなインテリジェンスをもたらすと一般的に信じられている。 その大きな約束にもかかわらず、ユビキタスAIベースの6Gには、いくつかの新しい課題が期待されている。 無線ネットワークにAIを適用する試みは数多く行われているが、これらの試みは実用システムに大規模な実装をまだ見ていない。 重要な課題の1つは、大量の異種デバイスに分散AIを実装することの難しさである。 Federated Learning(FL)は、異種および潜在的に大規模ネットワークにおけるデータ駆動型AIソリューションを可能にする、新興の分散AIソリューションである。 まだ開発の初期段階だが、flにインスパイアされたアーキテクチャは、6gでユビキタスaiを実現する最も有望なソリューションの1つとして認識されている。 本稿では,6GとAIの収束を促進するための要件を特定する。 FLベースのネットワークアーキテクチャを提案し、6Gで期待される新しい課題に対処する可能性について論じる。 FL対応6Gの今後の動向と研究課題についても論じる。

With 5G cellular systems being actively deployed worldwide, the research community has started to explore novel technological advances for the subsequent generation, i.e., 6G. It is commonly believed that 6G will be built on a new vision of ubiquitous AI, an hyper-flexible architecture that brings human-like intelligence into every aspect of networking systems. Despite its great promise, there are several novel challenges expected to arise in ubiquitous AI-based 6G. Although numerous attempts have been made to apply AI to wireless networks, these attempts have not yet seen any large-scale implementation in practical systems. One of the key challenges is the difficulty to implement distributed AI across a massive number of heterogeneous devices. Federated learning (FL) is an emerging distributed AI solution that enables data-driven AI solutions in heterogeneous and potentially massive-scale networks. Although it still in an early stage of development, FL-inspired architecture has been recognized as one of the most promising solutions to fulfill ubiquitous AI in 6G. In this article, we identify the requirements that will drive convergence between 6G and AI. We propose an FL-based network architecture and discuss its potential for addressing some of the novel challenges expected in 6G. Future trends and key research problems for FL-enabled 6G are also discussed.
翻訳日:2022-12-09 14:03:49 公開日:2020-04-26
# サブキューブ条件付きユンタ分布の学習とテスト

Learning and Testing Junta Distributions with Subcube Conditioning ( http://arxiv.org/abs/2004.12496v1 )

ライセンス: Link先を確認
Xi Chen, Rajesh Jayaram, Amit Levi, Erik Waingarten(参考訳) 1,1\}^n$ の分布を一様分布に関して学習・テストする問題について検討する。ここでは、分布 $p$ が $k$-junta であるとは、その確率質量関数 $p(x)$ が最大 $k$ 変数のサブセットに依存する場合である。 主な寄与は、サブキューブ条件付き$k$-junta分布における関連する座標を見つけるアルゴリズムである [BC18, CCKLW20]。 1:$\tilde{o}(k/\epsilon^2) \log n + o(2^k/\epsilon^2)$ subcube条件付きクエリで$k$-junta分布を学習するアルゴリズム、2:$\tilde{o}((k + \sqrt{n})/\epsilon^2)$ subcube条件付きクエリで$k$-junta分布をテストするアルゴリズム。 全てのアルゴリズムは多対数因子に最適である。 その結果,サブキューブコンディショニングは,高次元分布の自然モデルとして,標準サンプリングモデルと比較して,学習やテストにおいて有意な節約が期待できることがわかった。 これはAliakbarpour, Blais, Rubinfeld[ABR17]によって提起されたオープンな問題に対処する。

We study the problems of learning and testing junta distributions on $\{-1,1\}^n$ with respect to the uniform distribution, where a distribution $p$ is a $k$-junta if its probability mass function $p(x)$ depends on a subset of at most $k$ variables. The main contribution is an algorithm for finding relevant coordinates in a $k$-junta distribution with subcube conditioning [BC18, CCKLW20]. We give two applications: 1. An algorithm for learning $k$-junta distributions with $\tilde{O}(k/\epsilon^2) \log n + O(2^k/\epsilon^2)$ subcube conditioning queries, and 2. An algorithm for testing $k$-junta distributions with $\tilde{O}((k + \sqrt{n})/\epsilon^2)$ subcube conditioning queries. All our algorithms are optimal up to poly-logarithmic factors. Our results show that subcube conditioning, as a natural model for accessing high-dimensional distributions, enables significant savings in learning and testing junta distributions compared to the standard sampling model. This addresses an open question posed by Aliakbarpour, Blais, and Rubinfeld [ABR17].
翻訳日:2022-12-09 14:03:27 公開日:2020-04-26
# アイデンティティ向上した残像デノイング

Identity Enhanced Residual Image Denoising ( http://arxiv.org/abs/2004.13523v1 )

ライセンス: Link先を確認
Saeed Anwar, Cong Phuoc Huynh, and Fatih Porikli(参考訳) 本稿では,アイデンティティマッピングモジュールのチェーンと残像記述のための残像アーキテクチャの残像を含む,完全な畳み込みネットワークモデルを学習することを提案する。 ネットワーク構造は,ノイズ除去タスクにおいて重要な3つの特徴を有する。 まず、各ユニットはスキップ接続としてアイデンティティマッピングを使用し、前方方向と後方方向の両方で伝播する勾配等級を保存するために予めアクティブな入力を受け取る。 第2に、残枝の畳み込み層に拡張されたカーネルを利用することで、各モジュールの最後の畳み込み層のニューロンは、第1層の完全な受容野を観察することができる。 最後に,高レベル情報の伝達を容易にするために,残差アーキテクチャの残差を用いる。 現状のリアルタイムデノージングネットワークとは対照的に,実画像デノージングのための単純で単段のネットワークも提示する。 提案したネットワークは,従来の3つのベンチマークと3つの実世界のデータセットで評価した場合,従来の最先端およびCNNアルゴリズムよりも極めて高い数値精度と画像品質を実現する。

We propose to learn a fully-convolutional network model that consists of a Chain of Identity Mapping Modules and residual on the residual architecture for image denoising. Our network structure possesses three distinctive features that are important for the noise removal task. Firstly, each unit employs identity mappings as the skip connections and receives pre-activated input to preserve the gradient magnitude propagated in both the forward and backward directions. Secondly, by utilizing dilated kernels for the convolution layers in the residual branch, each neuron in the last convolution layer of each module can observe the full receptive field of the first layer. Lastly, we employ the residual on the residual architecture to ease the propagation of the high-level information. Contrary to current state-of-the-art real denoising networks, we also present a straightforward and single-stage network for real image denoising. The proposed network produces remarkably higher numerical accuracy and better visual image quality than the classical state-of-the-art and CNN algorithms when being evaluated on the three conventional benchmark and three real-world datasets.
翻訳日:2022-12-09 13:55:40 公開日:2020-04-26
# 2人繰り返しゲームにおける計画と行動の予測

Predicting Plans and Actions in Two-Player Repeated Games ( http://arxiv.org/abs/2004.12480v1 )

ライセンス: Link先を確認
Najma Mathema, Michael A. Goodrich, and Jacob W. Crandall(参考訳) 人工知能(AI)エージェントは、他のAIエージェントと人間の両方と対話する必要がある。 アソシエイトモデルの作成は、モデル化されたエージェントの行動、計画、意図を予測するのに役立つ。 この研究は、繰り返しプレイゲームにおけるアクション、計画、意図を予測するアルゴリズムを導入し、アルゴリズムの探索を提供する。 我々は、s#をモデル化する生成ベイズ的アプローチを形成する。 s# は 2 対 2 のマトリクスゲームでそのアソシエイトと協調することを学ぶロバストなアルゴリズムとして設計されている。 それぞれのS#専門家に関連する行動、計画、意図は文献から特定され、それに従ってS#専門家をグループ化し、その状態の確率に基づいて行動、計画、意図を予測する。 囚人ジレンマに対する2つの予測法が検討されている: 最大後肢 (map) と集約アプローチである。 MAP(約89%の精度)は行動予測に最適であった。 どちらの方法も88%の精度でs#の計画を予測する。 Paired T-testは、MAPが安価なトークなしでS#のアクションを予測するのに、Aggregationよりもはるかに優れていることを示している。 s#の専門家の目標に基づいて意図を探求する。その結果、s#をモデリングするときの目標を正確に予測できることが示されている。 その結果,提案手法は2プレイヤー繰り返しゲームにおけるモデリングエージェントに好適であることがわかった。

Artificial intelligence (AI) agents will need to interact with both other AI agents and humans. Creating models of associates help to predict the modeled agents' actions, plans, and intentions. This work introduces algorithms that predict actions, plans and intentions in repeated play games, with providing an exploration of algorithms. We form a generative Bayesian approach to model S#. S# is designed as a robust algorithm that learns to cooperate with its associate in 2 by 2 matrix games. The actions, plans and intentions associated with each S# expert are identified from the literature, grouping the S# experts accordingly, and thus predicting actions, plans, and intentions based on their state probabilities. Two prediction methods are explored for Prisoners Dilemma: the Maximum A Posteriori (MAP) and an Aggregation approach. MAP (~89% accuracy) performed the best for action prediction. Both methods predicted plans of S# with ~88% accuracy. Paired T-test shows that MAP performs significantly better than Aggregation for predicting S#'s actions without cheap talk. Intention is explored based on the goals of the S# experts; results show that goals are predicted precisely when modeling S#. The obtained results show that the proposed Bayesian approach is well suited for modeling agents in two-player repeated games.
翻訳日:2022-12-09 13:55:20 公開日:2020-04-26
# GymFG: FlightGear用のGymインターフェースを備えたフレームワーク

GymFG: A Framework with a Gym Interface for FlightGear ( http://arxiv.org/abs/2004.12481v1 )

ライセンス: Link先を確認
Andrew Wood, Ali Sydney, Peter Chin, Bishal Thapa, Ryan Ross(参考訳) 過去数十年間、展開可能な自律飛行システムの進歩は徐々に停滞している。 これは今日の航空機生産に反映されており、パイロットは離陸、着陸、航行、地形・交通回避のための自動操縦のような単純な物理ベースのシステムしか利用できない。 明らかに、自律性は、より高い問題複雑性と認知的ワークロードを必要とするコミュニティの信頼を得ていない。 信頼に対処するためには、モデリングとシミュレーションという自律的な能力を開発するプロセスを再考する必要がある。 ライブテストの禁止コストを考えると、飛行システムに適用可能な自律学習機能を備えた高忠実な飛行シミュレータで、自律飛行エージェントのプロトタイプを作成し、評価する必要があります。 その結果、我々はgymfg: gymfg couples を開発し、高度でオープンソースのフライトシミュレータとより複雑なタスクの学習を容易にするロバストなエージェント学習フレームワークを拡張した。 さらに,Imitation Learning を用いた自律飛行エージェントの訓練に GymFG を用いることを実証した。 GymFGを使えば、複雑な問題に対処する革新的なアイデアを展開でき、プロトタイプを現実世界に移すために必要な信頼を構築することができます。

Over the past decades, progress in deployable autonomous flight systems has slowly stagnated. This is reflected in today's production air-crafts, where pilots only enable simple physics-based systems such as autopilot for takeoff, landing, navigation, and terrain/traffic avoidance. Evidently, autonomy has not gained the trust of the community where higher problem complexity and cognitive workload are required. To address trust, we must revisit the process for developing autonomous capabilities: modeling and simulation. Given the prohibitive costs for live tests, we need to prototype and evaluate autonomous aerial agents in a high fidelity flight simulator with autonomous learning capabilities applicable to flight systems: such a open-source development platform is not available. As a result, we have developed GymFG: GymFG couples and extends a high fidelity, open-source flight simulator and a robust agent learning framework to facilitate learning of more complex tasks. Furthermore, we have demonstrated the use of GymFG to train an autonomous aerial agent using Imitation Learning. With GymFG, we can now deploy innovative ideas to address complex problems and build the trust necessary to move prototypes to the real-world.
翻訳日:2022-12-09 13:54:45 公開日:2020-04-26
# Cascade-LSTM:ディープニューラルネットワークを用いた情報カスケード予測

Cascade-LSTM: Predicting Information Cascades using Deep Neural Networks ( http://arxiv.org/abs/2004.12373v1 )

ライセンス: Link先を確認
Sameera Horawalavithana, John Skvoretz, Adriana Iamnitchi(参考訳) 動的社会環境における情報の流れの予測は、医療メッセージの拡散からミーム追跡に至るまで、現代社会の多くの領域に関係している。 情報カスケードの成長を予測することは、様々な社会プラットフォームにおいてうまく対処されているが、情報カスケードの時間的・位相的構造を予測することは、探索に限られている。 しかし、特定のユーザのメッセージの送信回数を正確に予測し、実際的な介入テクニックを設計する上で、どの時点が最重要かを予測する。 本稿では,Long-Short Term Memory(LSTM)ニューラルネットワーク技術を用いて,情報カスケードの2つの時空間特性,すなわち個別レベルの情報伝送のサイズと速度を予測する。 これらの予測アルゴリズムとカスケードツリーの確率的生成を組み合わせて、RedditとGithubの2つの異なるプラットフォームでカスケードツリーを正確に生成できる生成テストモデルを構築する。 提案手法では,情報送信機では73%以上,ソーシャルプラットフォームでは83%以上,早期送信機では83%以上を分類できる。

Predicting the flow of information in dynamic social environments is relevant to many areas of the contemporary society, from disseminating health care messages to meme tracking. While predicting the growth of information cascades has been successfully addressed in diverse social platforms, predicting the temporal and topological structure of information cascades has seen limited exploration. However, accurately predicting how many users will transmit the message of a particular user and at what time is paramount for designing practical intervention techniques. This paper leverages Long-Short Term Memory (LSTM) neural network techniques to predict two spatio-temporal properties of information cascades, namely the size and speed of individual-level information transmissions. We combine these prediction algorithms with probabilistic generation of cascade trees into a generative test model that is able to accurately generate cascade trees in two different platforms, Reddit and Github. Our approach leads to a classification accuracy of over 73% for information transmitters and 83% for early transmitters in a variety of social platforms.
翻訳日:2022-12-09 13:53:50 公開日:2020-04-26
# CrowdTSC: テキスト知覚分類のためのクラウドベースのニューラルネットワーク

CrowdTSC: Crowd-based Neural Networks for Text Sentiment Classification ( http://arxiv.org/abs/2004.12389v1 )

ライセンス: Link先を確認
Keyu Yang, Yunjun Gao, Lei Liang, Song Bian, Lu Chen, Baihua Zheng(参考訳) 感性分類はコンテンツ分析の基本的な課題である。 深層学習は浅いモデルと比較してテキスト分類において有望な性能を示したが、満足度の高いテキスト感情の分類器を訓練することはできない。 人間は、テキストの感情的極性を理解し、捉えるという点で、機械学習モデルよりも洗練されている。 本稿では,人間の知能の力を利用してテキスト感情分類を行う。 テキストセンティメント分類のためのクラウドベースニューラルネットワーク(略してCrowdTSC)を提案する。 質問をクラウドソーシングプラットフォームにデザインし、テキストでキーワードを収集します。 サンプリングとクラスタリングはクラウドソーシングのコスト削減に利用される。 また,注意に基づくニューラルネットワークと,収集したキーワードを人間の指導としてディープニューラルネットワークに組み込むハイブリッドニューラルネットワークを提案する。 公開データセットに関する大規模な実験により、CrowdTSCは最先端のモデルよりも優れており、クラウドベースのキーワードガイダンスの有効性を正当化している。

Sentiment classification is a fundamental task in content analysis. Although deep learning has demonstrated promising performance in text classification compared with shallow models, it is still not able to train a satisfying classifier for text sentiment. Human beings are more sophisticated than machine learning models in terms of understanding and capturing the emotional polarities of texts. In this paper, we leverage the power of human intelligence into text sentiment classification. We propose Crowd-based neural networks for Text Sentiment Classification (CrowdTSC for short). We design and post the questions on a crowdsourcing platform to collect the keywords in texts. Sampling and clustering are utilized to reduce the cost of crowdsourcing. Also, we present an attention-based neural network and a hybrid neural network, which incorporate the collected keywords as human being's guidance into deep neural networks. Extensive experiments on public datasets confirm that CrowdTSC outperforms state-of-the-art models, justifying the effectiveness of crowd-based keyword guidance.
翻訳日:2022-12-09 13:53:31 公開日:2020-04-26
# 物理制約付き間接教師あり学習

Physics-constrained indirect supervised learning ( http://arxiv.org/abs/2004.14293v1 )

ライセンス: Link先を確認
Yuntian Chen and Dongxiao Zhang(参考訳) 本研究ではラベルに依存しない教師付き学習手法を提案する。 ラベルに関連付けられた変数を間接ラベルとして使用し、モデルをトレーニングするための物理メカニズムに基づいて間接物理学制約付き損失を構築する。 トレーニングプロセスでは、モデル予測をプロジェクションマトリックスを介して物理機構に適合する値の空間にマッピングし、間接ラベルに基づいてモデルをトレーニングする。 モデルの最終予測結果は、間接ラベルとラベルの間の物理的メカニズムに準拠し、間接ラベルの制約にも適合する。 また,予測行列の正規化と予測共分散解析を行い,モデルを完全に学習できるようにした。 最後に、ウェルログ生成問題に基づいて、物理制約付き間接教師付き学習の効果を検証する。

This study proposes a supervised learning method that does not rely on labels. We use variables associated with the label as indirect labels, and construct an indirect physics-constrained loss based on the physical mechanism to train the model. In the training process, the model prediction is mapped to the space of value that conforms to the physical mechanism through the projection matrix, and then the model is trained based on the indirect labels. The final prediction result of the model conforms to the physical mechanism between indirect label and label, and also meets the constraints of the indirect label. The present study also develops projection matrix normalization and prediction covariance analysis to ensure that the model can be fully trained. Finally, the effect of the physics-constrained indirect supervised learning is verified based on a well log generation problem.
翻訳日:2022-12-09 13:53:17 公開日:2020-04-26
# 機械学習を用いた一般測光空間オブジェクト分類のための高忠実度シミュレータの開発

Development of a High Fidelity Simulator for Generalised Photometric Based Space Object Classification using Machine Learning ( http://arxiv.org/abs/2004.12270v1 )

ライセンス: Link先を確認
James Allworth, Lloyd Windrim, Jeffrey Wardman, Daniel Kucharski, James Bennett, Mitch Bryson(参考訳) 本稿では,高忠実度模擬光曲線と転写学習を組み合わせた汎用空間オブジェクト(RSO)キャラクタリゼーションのためのディープラーニング分類器を開発し,実データに基づく学習対象キャラクタリゼーションモデルの性能向上を図る。 RSOの分類と特徴化は、軌道予測の精度を向上させるために、宇宙状況認識(SSA)において重要な目標である。 本稿では,現実的な光曲線を生成するための高忠実度シミュレーション環境の開発に焦点をあてる。 シミュレータは、RSOのテクスチャ化された幾何学モデルとオブジェクトのエフェメリスを取り込み、Blenderを使用して、RSOのフォトリアリスティックな画像を生成し、処理して光曲線を抽出する。 シミュレーション光曲線と望遠鏡画像から抽出された実光曲線を比較し,シミュレーション環境の検証を行った。 今後の作業には、ニューラルネットワークのトレーニングを目的とした現実的な光曲線のデータセットを生成するための、さらなる検証とシミュレータの使用が含まれる。

This paper presents the initial stages in the development of a deep learning classifier for generalised Resident Space Object (RSO) characterisation that combines high-fidelity simulated light curves with transfer learning to improve the performance of object characterisation models that are trained on real data. The classification and characterisation of RSOs is a significant goal in Space Situational Awareness (SSA) in order to improve the accuracy of orbital predictions. The specific focus of this paper is the development of a high-fidelity simulation environment for generating realistic light curves. The simulator takes in a textured geometric model of an RSO as well as the objects ephemeris and uses Blender to generate photo-realistic images of the RSO that are then processed to extract the light curve. Simulated light curves have been compared with real light curves extracted from telescope imagery to provide validation for the simulation environment. Future work will involve further validation and the use of the simulator to generate a dataset of realistic light curves for the purpose of training neural networks.
翻訳日:2022-12-09 13:53:06 公開日:2020-04-26
# TRAKO:可視化のためのトラクトグラフィーデータの効率的な伝送

TRAKO: Efficient Transmission of Tractography Data for Visualization ( http://arxiv.org/abs/2004.13630v1 )

ライセンス: Link先を確認
Daniel Haehn, Loraine Franke, Fan Zhang, Suheyla Cetin Karayumak, Steve Pieper, Lauren O'Donnell, Yogesh Rathi(参考訳) ファイバトラッキングは、数百万のストリームラインからなる数十ギガバイト規模の大規模なトラクトグラフィデータセットを生成する。 このような膨大なデータには、効率的なストレージ、転送、視覚化を可能にするフォーマットが必要です。 本稿では,グラフィクス層トランスミッションフォーマット(glTF)に基づく新しいデータフォーマットであるTRAKOについて述べる。 我々は,頂点,流線,付加スカラーとプロパティデータに対して最先端の圧縮技術を統合する。 次にTRAKOと既存のトラクトグラフィー記憶法を比較し、8つのデータセットについて詳細な評価を行う。 TRAKOは、これまで公表された研究から分析を複製する際に、統計的意義を失うことなく、28倍以上のデータ削減を達成できる。

Fiber tracking produces large tractography datasets that are tens of gigabytes in size consisting of millions of streamlines. Such vast amounts of data require formats that allow for efficient storage, transfer, and visualization. We present TRAKO, a new data format based on the Graphics Layer Transmission Format (glTF) that enables immediate graphical and hardware-accelerated processing. We integrate a state-of-the-art compression technique for vertices, streamlines, and attached scalar and property data. We then compare TRAKO to existing tractography storage methods and provide a detailed evaluation on eight datasets. TRAKO can achieve data reductions of over 28x without loss of statistical significance when used to replicate analysis from previously published studies.
翻訳日:2022-12-09 13:52:48 公開日:2020-04-26
# もう1つ必要なのは、Tighter Arbitrary形式のテキスト検出です。

All you need is a second look: Towards Tighter Arbitrary shape text detection ( http://arxiv.org/abs/2004.12436v1 )

ライセンス: Link先を確認
Meng Cao, Yuexian Zou(参考訳) 近年,深層学習に基づくシーンテキスト検出手法が大幅に進歩している。 しかし、解決すべき問題がいくつか残っている。 一般的に、長い曲線のテキストインスタンスはcnnの受容的フィールドサイズが限られているため断片化される傾向がある。 さらに、矩形や四角形の境界ボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。 さらに、テキストインスタンスの規模は大きく異なり、単一のセグメンテーションネットワークによる正確な予測が困難になる。 これらの問題に対処するために, 2段階のセグメンテーションに基づく任意のテキスト検出器である \textit{NASK} (\textbf{N}eed \textbf{A} \textbf{S}econd loo\textbf{K}) を提案する。 具体的には、 \textit{nask} は、テキストインスタンスセグメンテーションネットワーク、すなわち \textit{tis} (\(1^{st}\) ステージ)、テキストroiプーリングモジュール、および \textit{fox} (\(2^{nd}\) ステージと呼ばれるfiducial point expressionモジュールで構成される。 まず、 \textit{tis} がインスタンスセグメンテーションを行い、提案されたグループ空間およびチャネル注意モジュール(\textit{gsca})を用いて長方形のテキストプロポーザルを取得し、特徴表現を増強する。 そして、Text RoI Poolingはこれらの矩形を固定サイズに変換する。 最後に、テキスト中心線、テキスト線方向、文字スケール、文字方向を含む予測幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。 公開ベンチマークである \textit{total-text} と \textit{scut-ctw1500} の実験結果は、提案された \textit{nask} が最先端の結果を得ることを示した。

Deep learning-based scene text detection methods have progressed substantially over the past years. However, there remain several problems to be solved. Generally, long curve text instances tend to be fragmented because of the limited receptive field size of CNN. Besides, simple representations using rectangle or quadrangle bounding boxes fall short when dealing with more challenging arbitrary-shaped texts. In addition, the scale of text instances varies greatly which leads to the difficulty of accurate prediction through a single segmentation network. To address these problems, we innovatively propose a two-stage segmentation based arbitrary text detector named \textit{NASK} (\textbf{N}eed \textbf{A} \textbf{S}econd loo\textbf{K}). Specifically, \textit{NASK} consists of a Text Instance Segmentation network namely \textit{TIS} (\(1^{st}\) stage), a Text RoI Pooling module and a Fiducial pOint eXpression module termed as \textit{FOX} (\(2^{nd}\) stage). Firstly, \textit{TIS} conducts instance segmentation to obtain rectangle text proposals with a proposed Group Spatial and Channel Attention module (\textit{GSCA}) to augment the feature expression. Then, Text RoI Pooling transforms these rectangles to the fixed size. Finally, \textit{FOX} is introduced to reconstruct text instances with a more tighter representation using the predicted geometrical attributes including text center line, text line orientation, character scale and character orientation. Experimental results on two public benchmarks including \textit{Total-Text} and \textit{SCUT-CTW1500} have demonstrated that the proposed \textit{NASK} achieves state-of-the-art results.
翻訳日:2022-12-09 13:47:45 公開日:2020-04-26
# ワンショットアイデンティティ保存ポートレート再現法

One-Shot Identity-Preserving Portrait Reenactment ( http://arxiv.org/abs/2004.12452v1 )

ライセンス: Link先を確認
Sitao Xiang, Yuming Gu, Pengda Xiang, Mingming He, Koki Nagano, Haiwei Chen, Hao Li(参考訳) 本研究では,対象物(ワンショット)の1枚の画像と運転対象物の映像から,人物像を再現するための深層学習型フレームワークを提案する。 既存の顔再現法は、識別ミスマッチに苦しみ、特にワンショット設定において、対象と運転対象が異なる場合(クロスサブジェクト)に一貫性のないアイデンティティを生成する。 本研究は,1枚の画像から同一性を保つことを目的としている。 本稿では,表情とポーズからアイデンティティを分離し,ドライバのアイデンティティがターゲットと大きく異なる場合でもポートレート再現を保存できる新しい手法を提案する。 これは、ターゲットのアイデンティティと異なる主題からの表情とポーズを組み合わせたパーソナライズされた顔のランドマークを予測する、新しいランドマーク異方性ネットワーク(ld-net)によって達成される。 また、2Dランドマークをパーソナライズされたポートレートに局所的に翻訳し、大きなポーズと表現のバリエーションでワンショットのポートレート再現を可能にする特徴辞書ベースの生成逆数ネットワーク(FD-GAN)を導入する。 我々は,広範囲にわたるアブレーション研究により,身元特定能力の有効性を検証し,クロスオブジェクト・ポートレート・リダクティメントのための一貫したアイデンティティを創出する。 以上の結果から,本手法は現状の顔再現法よりも優れていた。 学術利用のためのコードとモデルをリリースします。

We present a deep learning-based framework for portrait reenactment from a single picture of a target (one-shot) and a video of a driving subject. Existing facial reenactment methods suffer from identity mismatch and produce inconsistent identities when a target and a driving subject are different (cross-subject), especially in one-shot settings. In this work, we aim to address identity preservation in cross-subject portrait reenactment from a single picture. We introduce a novel technique that can disentangle identity from expressions and poses, allowing identity preserving portrait reenactment even when the driver's identity is very different from that of the target. This is achieved by a novel landmark disentanglement network (LD-Net), which predicts personalized facial landmarks that combine the identity of the target with expressions and poses from a different subject. To handle portrait reenactment from unseen subjects, we also introduce a feature dictionary-based generative adversarial network (FD-GAN), which locally translates 2D landmarks into a personalized portrait, enabling one-shot portrait reenactment under large pose and expression variations. We validate the effectiveness of our identity disentangling capabilities via an extensive ablation study, and our method produces consistent identities for cross-subject portrait reenactment. Our comprehensive experiments show that our method significantly outperforms the state-of-the-art single-image facial reenactment methods. We will release our code and models for academic use.
翻訳日:2022-12-09 13:47:07 公開日:2020-04-26
# 物理的に実現可能なカラーフィルタの設計によるカメラのカラー化

Designing a physically-feasible colour filter to make a camera more colorimetric ( http://arxiv.org/abs/2004.12464v1 )

ライセンス: Link先を確認
Yuteng Zhu(参考訳) 従来, カメラに最適なカラーフィルタを求める手法が開発され, その結果, ルーサー条件に最も適合するカメラの感度が向上した。 すなわち、新しい感度はXYZ色マッチング関数とほぼ線形に関係している。 しかし、制約がなければ、このルーサー条件に基づく最適化から導かれるフィルタは、かなり非滑らかであり、製造に適さない非常に少ない光を伝達することができる。 本稿では,luther-condition filterの最適化法を拡張し,回収されたフィルタの滑らかさと透過率を両立させる。 実験により, 有効な「カメラ+フィルタ」がより色調に変化し, 滑らかで合理的に透過可能な物理的に実現可能なフィルタが得られた。

Previously, a method has been developed to find the best colour filter for a given camera which results in the new effective camera sensitivities that best meet the Luther condition. That is, the new sensitivities are approximately linearly related to the XYZ colour matching functions. However, with no constraint, the filter derived from this Luther-condition based optimisation can be rather non-smooth and transmit very little light which are impractical for fabrication. In this paper, we extend the Luther-condition filter optimisation method to allow us to incorporate both the smoothness and transmittance bounds of the recovered filter which are key practical concerns. Experiments demonstrate that we can find physically realisable filters which are smooth and reasonably transmissive with which the effective "camera+filter" becomes significantly more colorimetric.
翻訳日:2022-12-09 13:46:37 公開日:2020-04-26
# インテリジェント車両のための自発的ドライバ感情表情(defe)データセット

A Spontaneous Driver Emotion Facial Expression (DEFE) Dataset for Intelligent Vehicles ( http://arxiv.org/abs/2005.08626v1 )

ライセンス: Link先を確認
Wenbo Li, Yaodong Cui, Yintao Ma, Xingxin Chen, Guofa Li, Gang Guo and Dongpu Cao(参考訳) 本稿では,運転者の自発的感情分析のための新たなデータセットであるドライバ感情表情(DEFE)データセットを提案する。 データセットは、運転中の60名の参加者による表情記録を含む。 特定の感情を引き出すために選択されたビデオオーディオクリップを見た後、各参加者は同じ運転シナリオで運転タスクを完了し、次元的な感情と離散的な感情の側面から、運転中の感情反応を評価した。 また, 覚醒度, ヴァレンス, 支配性, 感情のカテゴリー, 強度の尺度を識別するために分類実験を行い, 提案するデータセットのベースとなる結果を得た。 さらに,運転シナリオと非運転シナリオの表情の違いについて比較検討した。 その結果,運転シナリオと非運転シナリオではaus(action unit)の表情が有意な違いを示し,運転シナリオにおける人間の感情表現は他の生活シナリオとは異なることが示された。 したがって、交通安全を改善するためには、運転者専用の人間感情データセットを公開する必要がある。 提案されたデータセットは公開され、世界中の研究者がドライバ感情分析手法の開発と検証に利用できるようになる。 私たちの知る限りでは、これは現在唯一の公開ドライバーの表情データセットである。

In this paper, we introduce a new dataset, the driver emotion facial expression (DEFE) dataset, for driver spontaneous emotions analysis. The dataset includes facial expression recordings from 60 participants during driving. After watching a selected video-audio clip to elicit a specific emotion, each participant completed the driving tasks in the same driving scenario and rated their emotional responses during the driving processes from the aspects of dimensional emotion and discrete emotion. We also conducted classification experiments to recognize the scales of arousal, valence, dominance, as well as the emotion category and intensity to establish baseline results for the proposed dataset. Besides, this paper compared and discussed the differences in facial expressions between driving and non-driving scenarios. The results show that there were significant differences in AUs (Action Units) presence of facial expressions between driving and non-driving scenarios, indicating that human emotional expressions in driving scenarios were different from other life scenarios. Therefore, publishing a human emotion dataset specifically for the driver is necessary for traffic safety improvement. The proposed dataset will be publicly available so that researchers worldwide can use it to develop and examine their driver emotion analysis methods. To the best of our knowledge, this is currently the only public driver facial expression dataset.
翻訳日:2022-12-09 13:45:54 公開日:2020-04-26
# DeepSeg:磁気共鳴FLAIR画像を用いた脳腫瘍自動分離のためのディープニューラルネットワークフレームワーク

DeepSeg: Deep Neural Network Framework for Automatic Brain Tumor Segmentation using Magnetic Resonance FLAIR Images ( http://arxiv.org/abs/2004.12333v1 )

ライセンス: Link先を確認
Ramy A. Zeineldin, Mohamed E. Karar, Jan Coburger, Christian R. Wirtz, Oliver Burgert(参考訳) 目的:グリオーマは浸潤性や急速な進行により最も一般的で攻撃的な脳腫瘍である。 正常な細胞と腫瘍の境界を区別するプロセスは、まだ臨床ルーチンにおいて難しい課題である。 FLAIR(Fluid-Attenuated Inversion Recovery) MRIモダリティは、腫瘍浸潤に関する情報を提供する。 そこで本研究では,FLAIR MRIデータを用いた脳病変の完全自動検出とセグメンテーションのためのDeepSegという,新しい汎用ディープラーニングアーキテクチャを提案する。 メソッド: 開発されたDeepSegはモジュラーデカップリングフレームワークである。 符号化と復号関係に基づく2つの連結コア部分からなる。 エンコーダ部は、空間情報抽出を担当する畳み込みニューラルネットワーク(CNN)である。 結果のセマンティックマップをデコーダ部に挿入して全解像度確率マップを得る。 改良されたU-Netアーキテクチャに基づいて、Residual Neural Network (ResNet)、Dense Convolutional Network (DenseNet)、NASNetなどの異なるCNNモデルが研究に利用されている。 結果: 提案する深層学習アーキテクチャは, s336例をトレーニングデータとして, 125例を検証データとして, 脳腫瘍分節(brats 2019)課題のmriデータセットに基づいて, オンラインテストおよび評価に成功している。 得られたセグメンテーション結果のサイスとハウスドルフ距離スコアは約0.81〜0.84および9.8〜19.7である。 結語:本研究では,FLAIR MR画像における脳腫瘍自動分離のための新しいDeepSegフレームワークにおいて,異なるディープラーニングモデルの適用可能性と性能の比較を行った。 提案されているDeepSegはオープンソースで、https://github.com/razeineldin/DeepSeg/.comで無償公開されている。

Purpose: Gliomas are the most common and aggressive type of brain tumors due to their infiltrative nature and rapid progression. The process of distinguishing tumor boundaries from healthy cells is still a challenging task in the clinical routine. Fluid-Attenuated Inversion Recovery (FLAIR) MRI modality can provide the physician with information about tumor infiltration. Therefore, this paper proposes a new generic deep learning architecture; namely DeepSeg for fully automated detection and segmentation of the brain lesion using FLAIR MRI data. Methods: The developed DeepSeg is a modular decoupling framework. It consists of two connected core parts based on an encoding and decoding relationship. The encoder part is a convolutional neural network (CNN) responsible for spatial information extraction. The resulting semantic map is inserted into the decoder part to get the full resolution probability map. Based on modified U-Net architecture, different CNN models such as Residual Neural Network (ResNet), Dense Convolutional Network (DenseNet), and NASNet have been utilized in this study. Results: The proposed deep learning architectures have been successfully tested and evaluated on-line based on MRI datasets of Brain Tumor Segmentation (BraTS 2019) challenge, including s336 cases as training data and 125 cases for validation data. The dice and Hausdorff distance scores of obtained segmentation results are about 0.81 to 0.84 and 9.8 to 19.7 correspondingly. Conclusion: This study showed successful feasibility and comparative performance of applying different deep learning models in a new DeepSeg framework for automated brain tumor segmentation in FLAIR MR images. The proposed DeepSeg is open-source and freely available at https://github.com/razeineldin/DeepSeg/.
翻訳日:2022-12-09 13:44:39 公開日:2020-04-26
# シーケンシャルなレシピによる料理の分類

Classification of Cuisines from Sequentially Structured Recipes ( http://arxiv.org/abs/2004.14165v1 )

ライセンス: Link先を確認
Tript Sharma, Utkarsh Upadhyay and Ganesh Bagler(参考訳) 世界中の文化は、その料理の慣用的なパターンによって区別される。 これらの料理は、食材、調理工程、道具などのサブ構造で特徴付けられる。 地域固有のこれらのサブ構造の複雑な融合は、料理のアイデンティティを定義する。 料理の特徴に基づく料理の正確な分類は目覚ましい問題であり、レシピの具材を特徴として考慮して解決しようと試みられている。 これまでの研究では、調理技術の詳細を考慮せずに、非構造的なレシピを用いて料理分類を試みた。 実際には、調理工程や技術とその順序はレシピの構造や分類において非常に重要である。 本稿では,レシピに関するシーケンシャルデータを含むレシピデータベースデータセット上で,この情報を考慮し,様々な分類手法を実装した。 最先端のRoBERTaモデルはロジスティック回帰やネイブベイズからLSTMやトランスフォーマーまで、様々な分類モデルの中で73.30%の精度を示した。

Cultures across the world are distinguished by the idiosyncratic patterns in their cuisines. These cuisines are characterized in terms of their substructures such as ingredients, cooking processes and utensils. A complex fusion of these substructures intrinsic to a region defines the identity of a cuisine. Accurate classification of cuisines based on their culinary features is an outstanding problem and has hitherto been attempted to solve by accounting for ingredients of a recipe as features. Previous studies have attempted cuisine classification by using unstructured recipes without accounting for details of cooking techniques. In reality, the cooking processes/techniques and their order are highly significant for the recipe's structure and hence for its classification. In this article, we have implemented a range of classification techniques by accounting for this information on the RecipeDB dataset containing sequential data on recipes. The state-of-the-art RoBERTa model presented the highest accuracy of 73.30% among a range of classification models from Logistic Regression and Naive Bayes to LSTMs and Transformers.
翻訳日:2022-12-09 13:37:36 公開日:2020-04-26
# virtual chromoendoscopic image generationによる胃3次元再建

Stomach 3D Reconstruction Based on Virtual Chromoendoscopic Image Generation ( http://arxiv.org/abs/2004.12288v1 )

ライセンス: Link先を確認
Aji Resindra Widya, Yusuke Monno, Masatoshi Okutomi, Sho Suzuki, Takuji Gotoda, Kenji Miki(参考訳) 胃内視鏡は、医師が患者の胃内の様々な病変を診断できる標準的な臨床プロセスである。 病変が発見された場合、胃の全体像と対比して病変の位置を認識することが非常に重要である。 従来の研究では,SfM (Structure-from-motion) パイプラインを用いて胃の形状を再構成することにより,胃表面のテクスチャを増強し,SfMの特徴マッチングを高めるために,インディゴカーミン (IC) ブルーディスプレー画像を使用した。 しかし、胃全体にic染料を散布するには追加の時間、労力、費用が必要であり、患者や開業医には望ましくない。 本稿では,非対位な実非対位画像とIC-spray画像に基づいて,仮想IC-sprayed (VIC) 画像を生成することで,IC染色を必要とせずに胃全体の3D再構成を実現する方法を提案する。 vic画像の生成における入力・出力カラーチャネル選択の効果を具体的に検討し,no-icグリーンチャネル画像からicスプレー赤チャネル画像への変換が最適なsfm再構成結果をもたらすことを見出した。

Gastric endoscopy is a standard clinical process that enables medical practitioners to diagnose various lesions inside a patient's stomach. If any lesion is found, it is very important to perceive the location of the lesion relative to the global view of the stomach. Our previous research showed that this could be addressed by reconstructing the whole stomach shape from chromoendoscopic images using a structure-from-motion (SfM) pipeline, in which indigo carmine (IC) blue dye sprayed images were used to increase feature matches for SfM by enhancing stomach surface's textures. However, spraying the IC dye to the whole stomach requires additional time, labor, and cost, which is not desirable for patients and practitioners. In this paper, we propose an alternative way to achieve whole stomach 3D reconstruction without the need of the IC dye by generating virtual IC-sprayed (VIC) images based on image-to-image style translation trained on unpaired real no-IC and IC-sprayed images. We have specifically investigated the effect of input and output color channel selection for generating the VIC images and found that translating no-IC green-channel images to IC-sprayed red-channel images gives the best SfM reconstruction result.
翻訳日:2022-12-09 13:36:37 公開日:2020-04-26
# AutoHR:ニューラルサーチによる遠隔心拍計測のための強力なエンドツーエンドベースライン

AutoHR: A Strong End-to-end Baseline for Remote Heart Rate Measurement with Neural Searching ( http://arxiv.org/abs/2004.12292v1 )

ライセンス: Link先を確認
Zitong Yu, Xiaobai Li, Xuesong Niu, Jingang Shi, Guoying Zhao(参考訳) 接触なく心臓活動を測定することを目的としたリモート光胸腺撮影(rPPG)は、多くの応用(例えば、遠隔医療)において大きな可能性を秘めている。 既存のエンドツーエンドのrPPGと心拍数(HR)測定手法は、制約の少ないシナリオ(例えば頭部の動きや照明の悪さ)に対して脆弱である。 本稿では,既存のエンド・ツー・エンドネットワークが課題条件下において性能に乏しい理由を考察し,ニューラルネットワーク検索(nas)を用いた遠隔hr計測のための強力なエンド・ツー・エンドベースライン(autohr)を確立する。 提案手法は3つの部分を含む。 1) 新しい時間差畳み込み(tdc)を備えた強力な探索型バックボーンは,フレーム間の内在的なrppg対応の手がかりを捉えようとする。 2)時間領域と周波数領域の制約を考慮したハイブリッド損失関数 3) 時空間データ拡張戦略による表現学習の改善 総合的な実験を3つのベンチマークデータセットで行い、データ内テストとクロスデータセットテストの両方で優れたパフォーマンスを示す。

Remote photoplethysmography (rPPG), which aims at measuring heart activities without any contact, has great potential in many applications (e.g., remote healthcare). Existing end-to-end rPPG and heart rate (HR) measurement methods from facial videos are vulnerable to the less-constrained scenarios (e.g., with head movement and bad illumination). In this letter, we explore the reason why existing end-to-end networks perform poorly in challenging conditions and establish a strong end-to-end baseline (AutoHR) for remote HR measurement with neural architecture search (NAS). The proposed method includes three parts: 1) a powerful searched backbone with novel Temporal Difference Convolution (TDC), intending to capture intrinsic rPPG-aware clues between frames; 2) a hybrid loss function considering constraints from both time and frequency domains; and 3) spatio-temporal data augmentation strategies for better representation learning. Comprehensive experiments are performed on three benchmark datasets to show our superior performance on both intra- and cross-dataset testing.
翻訳日:2022-12-09 13:36:16 公開日:2020-04-26
# 抽出文書要約のためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Networks for Extractive Document Summarization ( http://arxiv.org/abs/2004.12393v1 )

ライセンス: Link先を確認
Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Qiu, Xuanjing Huang(参考訳) 文書要約の抽出において重要なステップとして、相互関係の学習は多数のアプローチによって研究されてきた。 直感的な方法は、グラフベースのニューラルネットワークにそれらを配置することだ。 本稿では,文の粒度の異なる意味ノードを含むヘタサムグラフ(HeterSumGraph)を抽出するための異種グラフベースニューラルネットワークを提案する。 これらの追加ノードは文間の仲介として機能し、文間関係を強化する。 また,文書ノードの導入による単一ドキュメント設定からマルチドキュメントへの自然な拡張も可能である。 我々の知る限り、我々はグラフベースのニューラルネットワークに異なる種類のノードを導入し、文書の要約を抽出し、それらの利点を調べるための包括的な質的分析を行う。 コードはgithubでリリースされる予定だ。

As a crucial step in extractive document summarization, learning cross-sentence relations has been explored by a plethora of approaches. An intuitive way is to put them in the graph-based neural network, which has a more complex structure for capturing inter-sentence relationships. In this paper, we present a heterogeneous graph-based neural network for extractive summarization (HeterSumGraph), which contains semantic nodes of different granularity levels apart from sentences. These additional nodes act as the intermediary between sentences and enrich the cross-sentence relations. Besides, our graph structure is flexible in natural extension from a single-document setting to multi-document via introducing document nodes. To our knowledge, we are the first one to introduce different types of nodes into graph-based neural networks for extractive document summarization and perform a comprehensive qualitative analysis to investigate their benefits. The code will be released on Github
翻訳日:2022-12-09 13:27:39 公開日:2020-04-26
# 模範強化とカリキュラム最適化によるマルチモーダル応答生成に向けて

Towards Multimodal Response Generation with Exemplar Augmentation and Curriculum Optimization ( http://arxiv.org/abs/2004.12429v1 )

ライセンス: Link先を確認
Zeyang Lei, Zekang Li, Jinchao Zhang, Fandong Meng, Yang Feng, Yujiu Yang, Cheng Niu, Jie Zhou(参考訳) 近年, 可変オートエンコーダ (VAE) を用いたアプローチは, 応答の多様性向上に顕著な進展をもたらした。 しかし、これらの方法は通常、多様性の向上に伴う関連性の低下のコストを被る。 本稿では,生成した応答の妥当性と多様性を高めるために,exemplar additionation と curriculum optimization を用いたマルチモーダル応答生成フレームワークを提案する。 まず、通常単純なガウスの後方分布を近似する既存のVAEベースのモデルとは異なり、応答の多様性をさらに高めるためにガウス混合後続分布(つまりマルチモーダル)を提示し、応答の複雑な意味論を捉えるのに役立つ。 そして、多様性が増す間、妥当性が低下しないよう、トレーニングデータから得られた類似の例(例)を後続分布モデルに完全活用し、応答の妥当性を高める。 さらに, ガウス混合の事前分布と後方分布の収束を容易にするため, 複数の学習条件下でモデルを段階的に訓練するカリキュラム最適化戦略を考案した。 広範に使用されているswitchboardおよびdailydialogデータセットにおける実験結果から,このモデルは,多様性と関連性の観点から,強力なベースラインと比較して大きな改善を達成していることが示された。

Recently, variational auto-encoder (VAE) based approaches have made impressive progress on improving the diversity of generated responses. However, these methods usually suffer the cost of decreased relevance accompanied by diversity improvements. In this paper, we propose a novel multimodal response generation framework with exemplar augmentation and curriculum optimization to enhance relevance and diversity of generated responses. First, unlike existing VAE-based models that usually approximate a simple Gaussian posterior distribution, we present a Gaussian mixture posterior distribution (i.e, multimodal) to further boost response diversity, which helps capture complex semantics of responses. Then, to ensure that relevance does not decrease while diversity increases, we fully exploit similar examples (exemplars) retrieved from the training data into posterior distribution modeling to augment response relevance. Furthermore, to facilitate the convergence of Gaussian mixture prior and posterior distributions, we devise a curriculum optimization strategy to progressively train the model under multiple training criteria from easy to hard. Experimental results on widely used SwitchBoard and DailyDialog datasets demonstrate that our model achieves significant improvements compared to strong baselines in terms of diversity and relevance.
翻訳日:2022-12-09 13:27:11 公開日:2020-04-26
# タグ付け・パース・レマタイズのための半スーパービジョンニューラルネットワーク

Semi-Supervised Neural System for Tagging, Parsing and Lematization ( http://arxiv.org/abs/2004.12450v1 )

ライセンス: Link先を確認
Piotr Rybak, Alina Wr\'oblewska(参考訳) 本稿では,CoNLL 2018の多言語構文解析からユニバーサル依存関係への共有タスクであるICS PASシステムについて述べる。 このシステムは、biLSTMネットワークによって抽出された特徴に基づいて、共同で訓練されたタグ、補間器、および依存性パーサから構成される。 このシステムは完全な接続と拡張された畳み込みニューラルアーキテクチャの両方を使用する。 我々のアプローチの目新しさは、予測された依存グラフのサイクル数を減らす追加の損失関数の使用と、システムパフォーマンスを向上させるために自己学習を使用することです。 提案システム,すなわちICS PAS (Warszawa) は73.02 (LAS), 60.25 (MLAS), 64.44 (BLEX) の3位/4位となった。

This paper describes the ICS PAS system which took part in CoNLL 2018 shared task on Multilingual Parsing from Raw Text to Universal Dependencies. The system consists of jointly trained tagger, lemmatizer, and dependency parser which are based on features extracted by a biLSTM network. The system uses both fully connected and dilated convolutional neural architectures. The novelty of our approach is the use of an additional loss function, which reduces the number of cycles in the predicted dependency graphs, and the use of self-training to increase the system performance. The proposed system, i.e. ICS PAS (Warszawa), ranked 3th/4th in the official evaluation obtaining the following overall results: 73.02 (LAS), 60.25 (MLAS) and 64.44 (BLEX).
翻訳日:2022-12-09 13:26:34 公開日:2020-04-26
# 変圧器モデルのためのLVTとFREの実験

Experiments with LVT and FRE for Transformer model ( http://arxiv.org/abs/2004.12495v1 )

ライセンス: Link先を確認
Ilshat Gibadullin, Aidar Valeev(参考訳) 本稿では,テキスト要約用トランスフォーマーモデルに適用した大語彙トリックと特徴量エンコーディングの実験を行う。 類似のrnn-based sequence-to-sequenceモデルよりも優れた結果を得ることはできなかったので、より多くのモデルで結果が改善され、何が劣化するかを見極めようとしました。

In this paper, we experiment with Large Vocabulary Trick and Feature-rich encoding applied to the Transformer model for Text Summarization. We could not achieve better results, than the analogous RNN-based sequence-to-sequence model, so we tried more models to find out, what improves the results and what deteriorates them.
翻訳日:2022-12-09 13:26:18 公開日:2020-04-26
# PTPARL-D: 44年間のポルトガル議会討論の注釈付きコーパス

PTPARL-D: Annotated Corpus of 44 years of Portuguese Parliament debates ( http://arxiv.org/abs/2004.12502v1 )

ライセンス: Link先を確認
Paulo Almeida, Manuel Marques-Pita and Joana Gon\c{c}alves-S\'a(参考訳) 代表制民主主義では、残りを名乗る者もおり、これらの選出された役人は一般に議会などの議会に集まり、政策を議論し、立法し、基本的イニシアチブに投票する。 このような民主的プロセスの中核的な側面は、重要な公的な議論が行われる厳しい議論である。 世界中の多くの議会が、このような議論やその他の議会データの記録をデジタル形式で公開し、透明性と説明責任を高めている。 さらに、一部の議会は、半構造化されたデジタルフォーマットに古い紙の書き起こしをもたらしている。 しかし、これらの記録は原文や画像としてのみ提供され、注釈や一貫性のない書式がほとんどないため、分析や研究が困難になり、透明性と大衆の到達度も低下する。 本稿では,1976年から2019年までのポルトガル議会における議論の注釈付きコーパスであるPTPARL-Dについて紹介する。

In a representative democracy, some decide in the name of the rest, and these elected officials are commonly gathered in public assemblies, such as parliaments, where they discuss policies, legislate, and vote on fundamental initiatives. A core aspect of such democratic processes are the plenary debates, where important public discussions take place. Many parliaments around the world are increasingly keeping the transcripts of such debates, and other parliamentary data, in digital formats accessible to the public, increasing transparency and accountability. Furthermore, some parliaments are bringing old paper transcripts to semi-structured digital formats. However, these records are often only provided as raw text or even as images, with little to no annotation, and inconsistent formats, making them difficult to analyze and study, reducing both transparency and public reach. Here, we present PTPARL-D, an annotated corpus of debates in the Portuguese Parliament, from 1976 to 2019, covering the entire period of Portuguese democracy.
翻訳日:2022-12-09 13:26:12 公開日:2020-04-26
# 画像ワッサースタイン攻撃と防御の改善

Improved Image Wasserstein Attacks and Defenses ( http://arxiv.org/abs/2004.12478v1 )

ライセンス: Link先を確認
J. Edward Hu, Adith Swaminathan, Hadi Salman, Greg Yang(参考訳) $\ell_p$ボールで束縛された画像摂動に対するロバスト性は近年よく研究されている。 しかし実世界の摂動は、$\ell_p$の脅威モデルが想定するピクセル独立性を示すことは滅多にない。 最近提案されたwasserstein distance-bounded threatモデルは、ピクセルの質量移動に対する摂動を制限する有望な代替案である。 我々は、ワッサースタイン脅威モデルの以前の定義の欠陥を指摘し、修正し、より優れた枠組みの下でより強力な攻撃と防御を探求する。 最後に,現在のwasserstein-robustモデルでは,現実世界に見られる摂動に対する防御ができないことを論じる。 私たちのコードとトレーニングされたモデルは、https://github.com/edwardjhu/improved_wassersteinで利用可能です。

Robustness against image perturbations bounded by a $\ell_p$ ball have been well-studied in recent literature. Perturbations in the real-world, however, rarely exhibit the pixel independence that $\ell_p$ threat models assume. A recently proposed Wasserstein distance-bounded threat model is a promising alternative that limits the perturbation to pixel mass movements. We point out and rectify flaws in previous definition of the Wasserstein threat model and explore stronger attacks and defenses under our better-defined framework. Lastly, we discuss the inability of current Wasserstein-robust models in defending against perturbations seen in the real world. Our code and trained models are available at https://github.com/edwardjhu/improved_wasserstein .
翻訳日:2022-12-09 13:18:41 公開日:2020-04-26
# バイアスバスター:バックドア攻撃に対するdlベースのリソグラフィホットスポット検出器の堅牢化

Bias Busters: Robustifying DL-based Lithographic Hotspot Detectors Against Backdooring Attacks ( http://arxiv.org/abs/2004.12492v1 )

ライセンス: Link先を確認
Kang Liu, Benjamin Tan, Gaurav Rajavendra Reddy, Siddharth Garg, Yiorgos Makris, Ramesh Karri(参考訳) ディープラーニング(DL)はCADツールフロー全体の潜在的な改善を提供する。 しかし、dl技術は特に推論や訓練時間の敵意攻撃に弱いことが示されている。 近年の研究では、DLベースのホットスポット検出器をトレーニング期間中に「バックドア」して、通常のレイアウトクリップを正確に分類するが、特別なトリガー形状を非ホットスポットとして含むホットスポットを予測できることが示されている。 このようなバックドア攻撃に対する強力な防御として,新たなトレーニングデータ強化戦略を提案する。 防御は、トレーニングデータに導入された意図的なバイアスを取り除くことで機能するが、どのトレーニングサンプルが毒されたか、バックドアトリガーの性質を知る必要はない。 その結果,防御力は攻撃成功率を84%から0%に劇的に低減できることがわかった。

Deep learning (DL) offers potential improvements throughout the CAD tool-flow, one promising application being lithographic hotspot detection. However, DL techniques have been shown to be especially vulnerable to inference and training time adversarial attacks. Recent work has demonstrated that a small fraction of malicious physical designers can stealthily "backdoor" a DL-based hotspot detector during its training phase such that it accurately classifies regular layout clips but predicts hotspots containing a specially crafted trigger shape as non-hotspots. We propose a novel training data augmentation strategy as a powerful defense against such backdooring attacks. The defense works by eliminating the intentional biases introduced in the training data but does not require knowledge of which training samples are poisoned or the nature of the backdoor trigger. Our results show that the defense can drastically reduce the attack success rate from 84% to ~0%.
翻訳日:2022-12-09 13:18:31 公開日:2020-04-26
# 雑音ラベルのためのディープk-NN

Deep k-NN for Noisy Labels ( http://arxiv.org/abs/2004.12289v1 )

ライセンス: Link先を確認
Dara Bahri, Heinrich Jiang, Maya Gupta(参考訳) 現代の機械学習モデルは、しばしば、パフォーマンスが損なわれ、識別が難しいノイズラベルのある例で訓練される。 本稿では,予備モデルのロジット層に対する簡単な$k$-nearest 隣り合うフィルタリング手法により,誤ラベル付きトレーニングデータを除去し,最近提案された多くの手法よりも正確なモデルを生成することができることを示す。 また,その有効性に関する新たな統計的な保証も提供する。

Modern machine learning models are often trained on examples with noisy labels that hurt performance and are hard to identify. In this paper, we provide an empirical study showing that a simple $k$-nearest neighbor-based filtering approach on the logit layer of a preliminary model can remove mislabeled training data and produce more accurate models than many recently proposed methods. We also provide new statistical guarantees into its efficacy.
翻訳日:2022-12-09 13:10:30 公開日:2020-04-26
# COLAM: 置換最小化によるディープニューラルネットワークとソフトラベルの共同学習

COLAM: Co-Learning of Deep Neural Networks and Soft Labels via Alternating Minimization ( http://arxiv.org/abs/2004.12443v1 )

ライセンス: Link先を確認
Xingjian Li, Haoyi Xiong, Haozhe An, Dejing Dou, Chengzhong Xu(参考訳) データ表現に関するトレーニングデータセットのラベルの軟化は、ディープニューラルネットワーク(DNN)のトレーニングを改善するために頻繁に使用されている。 このような実践は、データの分布に関する特権情報を活用する手段として研究されているが、ソフトな分類出力を持つ訓練済みの学習者は、その特権情報を生成するための事前情報として最初に取得すべきである。 このようなニワトリ卵問題の解決を目的として,2つの目的の交互最小化によるDNNとソフトラベルを共学習するCOLAMフレームワークを提案する。 (a)ソフトラベルによるトレーニング損失、及び b) 改良されたソフトラベルを学習する目的 - エンドツーエンドのトレーニング手順。 提案手法を一連のベースラインと比較するために,広範囲な実験を行った。 実験結果から,COLAMは多くのタスクにおける性能向上を実現し,評価精度が向上した。 また、COLAMがなぜうまく機能するのかを定性的および定量的に分析する。

Softening labels of training datasets with respect to data representations has been frequently used to improve the training of deep neural networks (DNNs). While such a practice has been studied as a way to leverage privileged information about the distribution of the data, a well-trained learner with soft classification outputs should be first obtained as a prior to generate such privileged information. To solve such chicken-egg problem, we propose COLAM framework that Co-Learns DNNs and soft labels through Alternating Minimization of two objectives - (a) the training loss subject to soft labels and (b) the objective to learn improved soft labels - in one end-to-end training procedure. We performed extensive experiments to compare our proposed method with a series of baselines. The experiment results show that COLAM achieves improved performance on many tasks with better testing classification accuracy. We also provide both qualitative and quantitative analyses that explain why COLAM works well.
翻訳日:2022-12-09 13:10:21 公開日:2020-04-26
# ソーシャルメディアにおけるツイートの時系列表現に関する深層学習

Ensemble Deep Learning on Time-Series Representation of Tweets for Rumor Detection in Social Media ( http://arxiv.org/abs/2004.12500v1 )

ライセンス: Link先を確認
Chandra Mouli Madhav Kotteti, Xishuang Dong, Lijun Qian(参考訳) ソーシャルメディアは、タイムリーな情報共有のための人気のあるプラットフォームである。 Twitterのようなソーシャルメディアプラットフォームにとって重要な課題の1つは、組織的なニュース検証プロセスがないときに、ニュースを信頼するかどうかだ。 一方、噂のタイムリーな検出は、速いペースのソーシャルメディア環境を考えると、ささいな作業だ。 本研究では,twitterデータの時系列ベクトル表現を用いて,ディープニューラルネットワークによる予測の収集を多数実行し,噂をタイムリーに検出するアンサンブルモデルを提案する。 提案手法をアンサンブルモデルと組み合わせることで, フェムデータセットを用いた実験において, 噂検出の性能が向上することを示す。 実験結果から, マイクロF1スコアの分類性能は, ベースラインに比べて7.9%向上していることがわかった。

Social media is a popular platform for timely information sharing. One of the important challenges for social media platforms like Twitter is whether to trust news shared on them when there is no systematic news verification process. On the other hand, timely detection of rumors is a non-trivial task, given the fast-paced social media environment. In this work, we proposed an ensemble model, which performs majority-voting on a collection of predictions by deep neural networks using time-series vector representation of Twitter data for timely detection of rumors. By combining the proposed data pre-processing method with the ensemble model, better performance of rumor detection has been demonstrated in the experiments using PHEME dataset. Experimental results show that the classification performance has been improved by 7.9% in terms of micro F1 score compared to the baselines.
翻訳日:2022-12-09 13:09:40 公開日:2020-04-26
# 気候適応:不均衡衛星データから確実に予測する

Climate Adaptation: Reliably Predicting from Imbalanced Satellite Data ( http://arxiv.org/abs/2004.12344v1 )

ライセンス: Link先を確認
Ruchit Rawal, Prabhu Pradhan(参考訳) 航空画像(衛星、ドローン)の有用性は、特に危機管理のための分野横断的応用のための貴重な情報源となっている。 マッピングとトラッキングの取り組みの大部分は手作業で、リソース集約であり、デリバリの遅延につながることが多い。 ディープラーニング手法は、認識、検出を通じて救援活動の能力を高め、非自明なアプリケーションに使われている。 しかし、一般的に利用できるデータは(他の現実のアプリケーションと同様)非常に不均衡であり、ニューラルネットワークの能力を著しく損なうため、堅牢性と信頼性が低下する。 本稿では,このような極端な設定を扱うために使用される様々な手法の概要と,その組み合わせとしてすべてのマイノリティクラスに一般化する多種多様な手法(アーキテクチャチューニングから拡張まで)を用いて,マイノリティクラスのパフォーマンスを最大化するソリューションを提案する。 モデルの信頼性を高め、学際的な取り組みを拡大したいと考えています。

The utility of aerial imagery (Satellite, Drones) has become an invaluable information source for cross-disciplinary applications, especially for crisis management. Most of the mapping and tracking efforts are manual which is resource-intensive and often lead to delivery delays. Deep Learning methods have boosted the capacity of relief efforts via recognition, detection, and are now being used for non-trivial applications. However the data commonly available is highly imbalanced (similar to other real-life applications) which severely hampers the neural network's capabilities, this reduces robustness and trust. We give an overview on different kinds of techniques being used for handling such extreme settings and present solutions aimed at maximizing performance on minority classes using a diverse set of methods (ranging from architectural tuning to augmentation) which as a combination generalizes for all minority classes. We hope to amplify cross-disciplinary efforts by enhancing model reliability.
翻訳日:2022-12-09 13:09:08 公開日:2020-04-26
# 法的文書の類似性を計算する方法:比較研究

Methods for Computing Legal Document Similarity: A Comparative Study ( http://arxiv.org/abs/2004.12307v1 )

ライセンス: Link先を確認
Paheli Bhattacharya, Kripabandhu Ghosh, Arindam Pal, Saptarshi Ghosh(参考訳) 2つの法律文書間の類似性を計算することは、法情報検索分野において重要かつ困難な課題である。 同様の法的文書を見つけるには、先行事例の検索、法的記事の推薦など、下流の業務に多くの応用がある。 先行研究は,先行引用ネットワークを解析する法律文書の類似度を測定する方法と,テキスト内容の類似度に基づく類似度を測定する方法の2つを提案している。 しかし、これらの既存の手法を共通のプラットフォームで包括的に比較した例はない。 本稿では,既存手法の最初の系統解析を行う。 さらに,これまでに検討されていない,テキストベースとネットワーク埋め込みに基づく2つの新しい類似性計算手法についても検討する。

Computing similarity between two legal documents is an important and challenging task in the domain of Legal Information Retrieval. Finding similar legal documents has many applications in downstream tasks, including prior-case retrieval, recommendation of legal articles, and so on. Prior works have proposed two broad ways of measuring similarity between legal documents - analyzing the precedent citation network, and measuring similarity based on textual content similarity measures. But there has not been a comprehensive comparison of these existing methods on a common platform. In this paper, we perform the first systematic analysis of the existing methods. In addition, we explore two promising new similarity computation methods - one text-based and the other based on network embeddings, which have not been considered till now.
翻訳日:2022-12-09 13:08:38 公開日:2020-04-26
# 双方向学習を用いたニューラルトピックモデリング

Neural Topic Modeling with Bidirectional Adversarial Training ( http://arxiv.org/abs/2004.12331v1 )

ライセンス: Link先を確認
Rui Wang, Xuemeng Hu, Deyu Zhou, Yulan He, Yuxuan Xiong, Chenchen Ye, Haiyang Xu(参考訳) 近年、LDA(Latent Dirichlet Allocation)のような従来のトピックモデルのように、モデル推論の複雑な数学的導出を避けるため、テキストからの自動トピック抽出に神経トピックモデルを使用するという関心が高まっている。 しかしながら、これらのモデルは通常、潜在トピック空間上で不適切な事前(例えばガウス的あるいはロジスティック正規)を仮定するか、あるドキュメントのトピック分布を推測することができない。 これらの制限に対処するために,我々は,双方向敵トピック(bat)モデル(bidirectional adversarial topic model)と呼ばれるニューラルトピックモデリング手法を提案する。 提案したBATは,文書トピック分布と文書ワード分布との間に双方向のプロジェクションを構築する。 テキストから意味的パターンをキャプチャするジェネレータと、トピック推論のためのエンコーダを使用する。 さらに、単語関連情報を組み込むために、ガウス語(ガウス語-BAT)を用いた双方向逆トピックモデルをBATから拡張する。 BAT と Gaussian-BAT の有効性を検証するために,本実験では3つのベンチマークコーパスを用いた。 実験の結果, BAT と Gaussian-BAT はよりコヒーレントなトピックを得た。 さらに,抽出したトピックに基づいてテキストクラスタリングを行う場合,本モデルがベースラインを上回り,約6\%の精度で増加が観測されるガウス・バットにより,さらに大きな改善が得られた。

Recent years have witnessed a surge of interests of using neural topic models for automatic topic extraction from text, since they avoid the complicated mathematical derivations for model inference as in traditional topic models such as Latent Dirichlet Allocation (LDA). However, these models either typically assume improper prior (e.g. Gaussian or Logistic Normal) over latent topic space or could not infer topic distribution for a given document. To address these limitations, we propose a neural topic modeling approach, called Bidirectional Adversarial Topic (BAT) model, which represents the first attempt of applying bidirectional adversarial training for neural topic modeling. The proposed BAT builds a two-way projection between the document-topic distribution and the document-word distribution. It uses a generator to capture the semantic patterns from texts and an encoder for topic inference. Furthermore, to incorporate word relatedness information, the Bidirectional Adversarial Topic model with Gaussian (Gaussian-BAT) is extended from BAT. To verify the effectiveness of BAT and Gaussian-BAT, three benchmark corpora are used in our experiments. The experimental results show that BAT and Gaussian-BAT obtain more coherent topics, outperforming several competitive baselines. Moreover, when performing text clustering based on the extracted topics, our models outperform all the baselines, with more significant improvements achieved by Gaussian-BAT where an increase of near 6\% is observed in accuracy.
翻訳日:2022-12-09 13:08:26 公開日:2020-04-26
# マンダリン音声認識のためのトランスデューサのモデリングユニットに関する研究

Research on Modeling Units of Transformer Transducer for Mandarin Speech Recognition ( http://arxiv.org/abs/2004.13522v1 )

ライセンス: Link先を確認
Li Fu, Xiaoxiao Li, Libo Zi(参考訳) モデリングユニットとモデルアーキテクチャは、エンドツーエンド音声認識におけるリカレントニューラルネットワークトランスデューサ(RNN-T)の2つの重要な要素である。 マンダリン音声認識タスクにおけるRNN-Tの性能向上のために,自己注意変換器とRNNを組み合わせたトランスデューサを提案する。 そして、トランスフォーマートランスデューサの異なるモデリングユニットの選択について検討する。 さらに,サンプリング率の異なるマンダリン音声を高精度に認識できる汎用モデルを得るための混合帯域幅学習法を提案する。 全実験は8kHzと16kHzのサンプリングレートで約12,000時間のマンダリン音声で行った。 実験結果から,音節を用いたマンダリン変圧器のトランスデューサが最高の性能を発揮することがわかった。 音素と漢字で音節初期/最終音を使用するモデルと比較すると、平均14.4%と平均44.1%の単語誤り率(wer)が低下する。 また、音節の初期/最終音節に基づいて、平均13.5%の相対的文字誤り率(CER)低下率でモデルを上回ります。

Modeling unit and model architecture are two key factors of Recurrent Neural Network Transducer (RNN-T) in end-to-end speech recognition. To improve the performance of RNN-T for Mandarin speech recognition task, a novel transformer transducer with the combination architecture of self-attention transformer and RNN is proposed. And then the choice of different modeling units for transformer transducer is explored. In addition, we present a new mix-bandwidth training method to obtain a general model that is able to accurately recognize Mandarin speech with different sampling rates simultaneously. All of our experiments are conducted on about 12,000 hours of Mandarin speech with sampling rate in 8kHz and 16kHz. Experimental results show that Mandarin transformer transducer using syllable with tone achieves the best performance. It yields an average of 14.4% and 44.1% relative Word Error Rate (WER) reduction when compared with the models using syllable initial/final with tone and Chinese character, respectively. Also, it outperforms the model based on syllable initial/final with tone with an average of 13.5% relative Character Error Rate (CER) reduction.
翻訳日:2022-12-09 13:07:57 公開日:2020-04-26
# 新型コロナウイルス(covid-19)のオントロジーに基づく偽ニュースの検出

Detecting fake news for the new coronavirus by reasoning on the Covid-19 ontology ( http://arxiv.org/abs/2004.12330v1 )

ライセンス: Link先を確認
Adrian Groza(参考訳) 新型コロナウイルス(covid-19)パンデミックの状況では、多くの人がすぐに偽情報を広めた。 ここでは、説明論理学(DL)における推論が、信頼できる医療ソース間の不整合を検知し、信頼できないものを検出する方法について検討する。 信頼できない情報は自然言語(例えば「Covid-19は高齢者にのみ影響する」など)から来る。 自動的にdlsに変換するために、fredコンバータを使用しました。 次にReasoning in Description LogicsはRacerツールで実行される。

In the context of the Covid-19 pandemic, many were quick to spread deceptive information. I investigate here how reasoning in Description Logics (DLs) can detect inconsistencies between trusted medical sources and not trusted ones. The not-trusted information comes in natural language (e.g. "Covid-19 affects only the elderly"). To automatically convert into DLs, I used the FRED converter. Reasoning in Description Logics is then performed with the Racer tool.
翻訳日:2022-12-09 13:01:34 公開日:2020-04-26
# マルチドメイン対話行為と応答コージェネレーション

Multi-Domain Dialogue Acts and Response Co-Generation ( http://arxiv.org/abs/2004.12363v1 )

ライセンス: Link先を確認
Kai Wang and Junfeng Tian and Rui Wang and Xiaojun Quan and Jianxing Yu(参考訳) タスク指向対話システムでは,流動的かつ情報的応答の生成が重要である。 既存のパイプラインアプローチは一般的に、まず複数の対話動作を予測し、それを使って応答生成を支援する。 そのようなアプローチには少なくとも2つの欠点がある。 まず、マルチドメイン対話行動の本質的な構造を無視する。 第二に、行動と反応のセマンティックな関連性は、応答の生成を考慮に入れない。 そこで本研究では,対話行動と応答を同時に生成するニューラルコジェネレーションモデルを提案する。 これらのパイプラインアプローチとは異なり、act生成モジュールはマルチドメイン対話のセマンティクス構造を保持し、レスポンス生成モジュールは必要に応じて異なる動作に動的に対応します。 タスクの重みを適応的に調整するために,不確実性損失を用いて2つのモジュールを共同でトレーニングする。 大規模MultiWOZデータセットを用いて大規模な実験を行い, 結果から, 自動評価と人的評価の両方において, 複数の最先端モデルに対して極めて良好な改善が得られた。

Generating fluent and informative responses is of critical importance for task-oriented dialogue systems. Existing pipeline approaches generally predict multiple dialogue acts first and use them to assist response generation. There are at least two shortcomings with such approaches. First, the inherent structures of multi-domain dialogue acts are neglected. Second, the semantic associations between acts and responses are not taken into account for response generation. To address these issues, we propose a neural co-generation model that generates dialogue acts and responses concurrently. Unlike those pipeline approaches, our act generation module preserves the semantic structures of multi-domain dialogue acts and our response generation module dynamically attends to different acts as needed. We train the two modules jointly using an uncertainty loss to adjust their task weights adaptively. Extensive experiments are conducted on the large-scale MultiWOZ dataset and the results show that our model achieves very favorable improvement over several state-of-the-art models in both automatic and human evaluations.
翻訳日:2022-12-09 13:01:26 公開日:2020-04-26
# あなたの分類は本当にバイアスか? ベルンシュタイン境界による不確実性下での公平性の測定

Is Your Classifier Actually Biased? Measuring Fairness under Uncertainty with Bernstein Bounds ( http://arxiv.org/abs/2004.12332v1 )

ライセンス: Link先を確認
Kawin Ethayarajh(参考訳) ほとんどのnlpデータセットは、性別などの保護された属性でアノテートされていないため、公平性の標準尺度(例えば等機会)を用いて分類バイアスを測定することは困難である。 しかし、大きなデータセットを保護属性で手動でアノテートするのは遅くて高価である。 すべての例をアノテートする代わりに、サブセットにアノテートして、そのサンプルを使ってバイアスを見積もることができますか? そうすることは可能だが、この注釈付きサンプルが小さくなればなるほど、推定が真のバイアスに近いという確信は薄くなる。 本研究では、偏差推定に関するこの不確かさを信頼区間としてベルンシュタイン境界を用いることを提案する。 この方法で引き起こされた95%の信頼区間が真のバイアスを一貫して束縛するという経験的証拠を提供する。 この不確実性を定量化するために、私たちがベルンシュタイン境界不公平(Bernstein-bounded fairness)と呼ぶ手法は、いずれの主張も不十分な証拠がある場合に、分類器が偏見や偏見を受けないことを防ぐのに役立つ。 以上の結果から,現在特定のバイアスの測定に使用されているデータセットは,最も偏りのあるケースを除き,決定的にバイアスを識別するには小さすぎることが示唆された。 例えば、ジェンダー・ステレオタイプ的な文で5%精度の高い共参照解決システムを考えると、95%の信頼でバイアスを受けていると主張するためには、最大利用可能なWinoBiasの3.8倍のバイアス特異的データセットが必要です。

Most NLP datasets are not annotated with protected attributes such as gender, making it difficult to measure classification bias using standard measures of fairness (e.g., equal opportunity). However, manually annotating a large dataset with a protected attribute is slow and expensive. Instead of annotating all the examples, can we annotate a subset of them and use that sample to estimate the bias? While it is possible to do so, the smaller this annotated sample is, the less certain we are that the estimate is close to the true bias. In this work, we propose using Bernstein bounds to represent this uncertainty about the bias estimate as a confidence interval. We provide empirical evidence that a 95% confidence interval derived this way consistently bounds the true bias. In quantifying this uncertainty, our method, which we call Bernstein-bounded unfairness, helps prevent classifiers from being deemed biased or unbiased when there is insufficient evidence to make either claim. Our findings suggest that the datasets currently used to measure specific biases are too small to conclusively identify bias except in the most egregious cases. For example, consider a co-reference resolution system that is 5% more accurate on gender-stereotypical sentences -- to claim it is biased with 95% confidence, we need a bias-specific dataset that is 3.8 times larger than WinoBias, the largest available.
翻訳日:2022-12-09 13:00:50 公開日:2020-04-26
# アスペクトベース感情分析のための関係グラフ注意ネットワーク

Relational Graph Attention Network for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2004.12362v1 )

ライセンス: Link先を確認
Kai Wang and Weizhou Shen and Yunyi Yang and Xiaojun Quan and Rui Wang(参考訳) アスペクトベースの感情分析は、オンラインレビューにおける特定の側面に対する感情の極性を決定することを目的としている。 最近の取り組みでは、関心に基づくニューラルネットワークモデルを採用して、意見語とアスペクトを暗黙的に結びつける。 しかし、言語の複雑さと1つの文に複数の側面が存在するため、これらのモデルはしばしば接続を混乱させる。 本稿では,構文情報の効果的なエンコーディングによってこの問題に対処する。 まず、通常の依存関係解析木を書き換えて刈り取ることにより、対象アスペクトに根ざしたアスペクト指向の依存性ツリー構造を統一的に定義する。 次に,感情予測のための新しい木構造を符号化する関係グラフアテンションネットワーク(r-gat)を提案する。 semeval 2014 と twitter のデータセットについて広範な実験を行い,提案手法によりアスペクト語と意見語との接続性が向上し,グラフアテンションネットワーク (gat) の性能が大幅に向上したことを確認した。

Aspect-based sentiment analysis aims to determine the sentiment polarity towards a specific aspect in online reviews. Most recent efforts adopt attention-based neural network models to implicitly connect aspects with opinion words. However, due to the complexity of language and the existence of multiple aspects in a single sentence, these models often confuse the connections. In this paper, we address this problem by means of effective encoding of syntax information. Firstly, we define a unified aspect-oriented dependency tree structure rooted at a target aspect by reshaping and pruning an ordinary dependency parse tree. Then, we propose a relational graph attention network (R-GAT) to encode the new tree structure for sentiment prediction. Extensive experiments are conducted on the SemEval 2014 and Twitter datasets, and the experimental results confirm that the connections between aspects and opinion words can be better established with our approach, and the performance of the graph attention network (GAT) is significantly improved as a consequence.
翻訳日:2022-12-09 13:00:25 公開日:2020-04-26
# ExpDNN: 説明可能なディープニューラルネットワーク

ExpDNN: Explainable Deep Neural Network ( http://arxiv.org/abs/2005.03461v1 )

ライセンス: Link先を確認
Chi-Hua Chen(参考訳) 近年、予測、分類、パターン認識の高性能化のためにディープニューラルネットワークが適用されている。 しかし、これらのディープニューラルネットワークの重みを説明するのは難しい。 線形回帰法は説明可能な結果を与えることができるが、この方法は入力相互作用の場合には適さない。 そこで,説明可能な層を持つ説明可能な深層ニューラルネットワーク(expdnn)を提案し,入力相互作用の場合に説明可能な結果を得る。 提案したExpDNNの評価には3つの事例があり, 解析可能な層内の重量絶対値を用いて, 特徴抽出における対応する入力の重量を説明できることを示した。

In recent years, deep neural networks have been applied to obtain high performance of prediction, classification, and pattern recognition. However, the weights in these deep neural networks are difficult to be explained. Although a linear regression method can provide explainable results, the method is not suitable in the case of input interaction. Therefore, an explainable deep neural network (ExpDNN) with explainable layers is proposed to obtain explainable results in the case of input interaction. Three cases were given to evaluate the proposed ExpDNN, and the results showed that the absolute value of weight in an explainable layer can be used to explain the weight of corresponding input for feature extraction.
翻訳日:2022-12-09 12:59:00 公開日:2020-04-26
# choppy: ランキング廃止のためのカットトランスフォーマー

Choppy: Cut Transformer For Ranked List Truncation ( http://arxiv.org/abs/2004.13012v1 )

ライセンス: Link先を確認
Dara Bahri, Yi Tay, Che Zheng, Donald Metzler, Andrew Tomkins(参考訳) 情報検索における作業は、伝統的にランク付けと関連性に重点を置いてきた。 しかしながら、結果が返ってくる回数、すなわちランク付けされた結果リストを最適に切り離す方法を決定する問題は、様々なアプリケーションにおいて重要な重要性があるにもかかわらず、あまり注目されていない。 このような切り離しは、全体の関連性、あるいは結果の有用性と、より多くの結果を処理するためのユーザコストとのバランスをとる行為である。 本稿では,広く成功したTransformerアーキテクチャをベースとした仮定フリーモデルであるChoppyを,ランク付けリストのトランケーション問題に適用する。 結果の関連スコア以上のものを必要としないため、このモデルは強力なマルチヘッドアテンションメカニズムを使用して、ユーザ定義のIRメトリックを直接最適化する。 我々はchoppyが最新の最先端手法を改善していることを示す。

Work in information retrieval has traditionally focused on ranking and relevance: given a query, return some number of results ordered by relevance to the user. However, the problem of determining how many results to return, i.e. how to optimally truncate the ranked result list, has received less attention despite being of critical importance in a range of applications. Such truncation is a balancing act between the overall relevance, or usefulness of the results, with the user cost of processing more results. In this work, we propose Choppy, an assumption-free model based on the widely successful Transformer architecture, to the ranked list truncation problem. Needing nothing more than the relevance scores of the results, the model uses a powerful multi-head attention mechanism to directly optimize any user-defined IR metric. We show Choppy improves upon recent state-of-the-art methods.
翻訳日:2022-12-09 12:53:24 公開日:2020-04-26
# LIMEの拡張による解釈性と忠実度の向上

An Extension of LIME with Improvement of Interpretability and Fidelity ( http://arxiv.org/abs/2004.12277v1 )

ライセンス: Link先を確認
Sheng Shi, Yangzhou Du and Wei Fan(参考訳) ディープラーニングは人工知能(AI)において大きな成果を上げているが、透明性の欠如は、様々な垂直領域における幅広い応用を制限している。 説明可能性(Explainability)は、AIと現実世界のゲートウェイであるだけでなく、モデルの欠陥やデータのバイアスを検出する強力な機能でもある。 Local Interpretable Model-Agnostic Explanation (LIME) は、予測されたインスタンスの周辺で解釈可能なモデルをローカルに学習することによって、任意の分類器の予測を忠実に説明する、広く受け入れられた手法である。 LIMEの拡張として,機能依存サンプリングと非線形近似(LEDSNA)を用いた局所説明法(Local Explanation)と呼ばれる,高解釈性と高忠実な局所説明法を提案する。 説明されているインスタンスを前提として、LEDSNAは固有の依存関係を持つ機能サンプリングによって解釈可能性を高める。 さらに、LEDSNAは局所的決定の非線形境界を近似することにより局所的説明忠実性を改善する。 画像領域とテキスト領域の両方の分類タスクを用いて本手法の評価を行う。 実験により、LEDSNAのバックボックスモデルの説明は、解釈可能性と忠実性の観点から、元のLIMEよりもはるかに優れた性能が得られることが示された。

While deep learning makes significant achievements in Artificial Intelligence (AI), the lack of transparency has limited its broad application in various vertical domains. Explainability is not only a gateway between AI and real world, but also a powerful feature to detect flaw of the models and bias of the data. Local Interpretable Model-agnostic Explanation (LIME) is a widely-accepted technique that explains the prediction of any classifier faithfully by learning an interpretable model locally around the predicted instance. As an extension of LIME, this paper proposes an high-interpretability and high-fidelity local explanation method, known as Local Explanation using feature Dependency Sampling and Nonlinear Approximation (LEDSNA). Given an instance being explained, LEDSNA enhances interpretability by feature sampling with intrinsic dependency. Besides, LEDSNA improves the local explanation fidelity by approximating nonlinear boundary of local decision. We evaluate our method with classification tasks in both image domain and text domain. Experiments show that LEDSNA's explanation of the back-box model achieves much better performance than original LIME in terms of interpretability and fidelity.
翻訳日:2022-12-09 12:52:50 公開日:2020-04-26
# 翻訳文の言語検出

Detect Language of Transliterated Texts ( http://arxiv.org/abs/2004.13521v1 )

ライセンス: Link先を確認
Sourav Sen(参考訳) 他の言語から英語へのインフォーマルな翻訳は、ソーシャルメディアのスレッド、インスタントメッセージング、ディスカッションフォーラムで一般的である。 このような翻訳文の言語を識別しなければ、その言語を話さないユーザは翻訳ツールを使ってその内容を理解できない。 本稿では,限られたトレーニングデータと計算資源を用いても,翻訳文の言語を合理的に検出できる特徴抽出手法を用いた言語識別(lid)システムを提案する。 単語を音節にトークン化し,Long Short-Term Memory (LSTM) ネットワークアーキテクチャを用いて,文字の翻訳言語を検出する。 集中的な実験により,音節として発音された単語のトークン化は,その因果音のパターンを効果的に表すことを示す。 したがって、音韻音節のトークン化は、より単純なモデルアーキテクチャが任意の言語を識別するための特徴的パターンを学習しやすくする。

Informal transliteration from other languages to English is prevalent in social media threads, instant messaging, and discussion forums. Without identifying the language of such transliterated text, users who do not speak that language cannot understand its content using translation tools. We propose a Language Identification (LID) system, with an approach for feature extraction, which can detect the language of transliterated texts reasonably well even with limited training data and computational resources. We tokenize the words into phonetic syllables and use a simple Long Short-term Memory (LSTM) network architecture to detect the language of transliterated texts. With intensive experiments, we show that the tokenization of transliterated words as phonetic syllables effectively represents their causal sound patterns. Phonetic syllable tokenization, therefore, makes it easier for even simpler model architectures to learn the characteristic patterns to identify any language.
翻訳日:2022-12-09 12:51:21 公開日:2020-04-26
# ウォームスタートalphazeroのセルフプレイ検索機能強化

Warm-Start AlphaZero Self-Play Search Enhancements ( http://arxiv.org/abs/2004.12357v1 )

ライセンス: Link先を確認
Hui Wang, Mike Preuss, Aske Plaat(参考訳) 最近のalphazeroは、スーパーヒューマンレベルで3つの異なるゲームを学習する単一のセルフプレイアーキテクチャを提供することで、深い強化学習によって目覚ましい結果を得ている。 AlphaZeroは多くのパラメータを持つ大規模で複雑なシステムであり、成功には多くの計算能力と微調整が必要である。 他のゲームで結果を再現することは困難であり、多くの研究者は計算要求を減らしながら結果を改善する方法を模索している。 AlphaZeroの設計は、純粋にセルフプレイに基づいており、ラベル付き専門家データやドメイン固有の拡張を使用せず、ゼロから学ぶように設計されている。 本稿では,このコールドスタート問題に対する新しいアプローチとして,ロールアウト,ラピッドアクション値推定(rave)および動的重み付けの組み合わせ,およびローリングホライズン進化アルゴリズム(rhea)という,自己プレイトレーニングの開始段階で単純な検索拡張を用いる手法を提案する。 実験の結果,これらの改良は3つの異なるボードゲーム,特にRAVEベースのバリエーションにおいて,ベースラインプレーヤのパフォーマンスを向上させることが示唆された。

Recently, AlphaZero has achieved landmark results in deep reinforcement learning, by providing a single self-play architecture that learned three different games at super human level. AlphaZero is a large and complicated system with many parameters, and success requires much compute power and fine-tuning. Reproducing results in other games is a challenge, and many researchers are looking for ways to improve results while reducing computational demands. AlphaZero's design is purely based on self-play and makes no use of labeled expert data ordomain specific enhancements; it is designed to learn from scratch. We propose a novel approach to deal with this cold-start problem by employing simple search enhancements at the beginning phase of self-play training, namely Rollout, Rapid Action Value Estimate (RAVE) and dynamically weighted combinations of these with the neural network, and Rolling Horizon Evolutionary Algorithms (RHEA). Our experiments indicate that most of these enhancements improve the performance of their baseline player in three different (small) board games, with especially RAVE based variants playing strongly.
翻訳日:2022-12-09 12:51:06 公開日:2020-04-26
# IROS 2019の生涯ロボットビジョンチャレンジ - 生涯オブジェクト認識レポート

IROS 2019 Lifelong Robotic Vision Challenge -- Lifelong Object Recognition Report ( http://arxiv.org/abs/2004.14774v1 )

ライセンス: Link先を確認
Qi She, Fan Feng, Qi Liu, Rosa H. M. Chan, Xinyue Hao, Chuanlin Lan, Qihan Yang, Vincenzo Lomonaco, German I. Parisi, Heechul Bae, Eoin Brophy, Baoquan Chen, Gabriele Graffieti, Vidit Goel, Hyonyoung Han, Sathursan Kanagarajah, Somesh Kumar, Siew-Kei Lam, Tin Lun Lam, Liang Ma, Davide Maltoni, Lorenzo Pellegrini, Duvindu Piyasena, Shiliang Pu, Debdoot Sheet, Soonyong Song, Youngsung Son, Zhengwei Wang, Tomas E. Ward, Jianwen Wu, Meiqing Wu, Di Xie, Yangsheng Xu, Lin Yang, Qiaoyong Zhong, Liguang Zhou(参考訳) 本報告では、IROS 2019-Lifelong Robotic Vision Competition (Lifelong Object Recognition Challenge)を要約し、上位8ドルのファイナリスト(約150ドル以上のチームのうち)のメソッドと結果について説明する。 コンペティションデータセット (L)ifel(O)ng(R)obotic V(IS)ion (OpenLORIS) - オブジェクト認識 (OpenLORIS-object) は、家庭、オフィス、キャンパス、モールのシナリオで日常的なオブジェクトとともに、ロボットビジョン領域における生涯・連続学習の研究と応用を推進するために設計された。 データセットは、照明、オブジェクト閉塞、オブジェクトサイズ、カメラオブジェクト距離/角度、および乱雑な情報の変種を明示的に定量化する。 ルールは、コンテストの動的環境に現れるオブジェクトに直面するロボットビジョンシステムの学習能力を定量化するように設計されている。 個々のレポート、データセット情報、ルール、およびリリースされたソースコードはプロジェクトのホームページで見ることができる。

This report summarizes IROS 2019-Lifelong Robotic Vision Competition (Lifelong Object Recognition Challenge) with methods and results from the top $8$ finalists (out of over~$150$ teams). The competition dataset (L)ifel(O)ng (R)obotic V(IS)ion (OpenLORIS) - Object Recognition (OpenLORIS-object) is designed for driving lifelong/continual learning research and application in robotic vision domain, with everyday objects in home, office, campus, and mall scenarios. The dataset explicitly quantifies the variants of illumination, object occlusion, object size, camera-object distance/angles, and clutter information. Rules are designed to quantify the learning capability of the robotic vision system when faced with the objects appearing in the dynamic environments in the contest. Individual reports, dataset information, rules, and released source code can be found at the project homepage: "https://lifelong-robotic-vision.github.io/competition/".
翻訳日:2022-12-09 12:50:45 公開日:2020-04-26
# 課題クローズドブック科学試験 : メタラーニングによる質問応答システム

Challenge Closed-book Science Exam: A Meta-learning Based Question Answering System ( http://arxiv.org/abs/2004.12303v1 )

ライセンス: Link先を確認
Xinyue Zheng, Peng Wang, Qigang Wang, Zhongchao Shi(参考訳) 標準化された科学試験における以前の研究は、Wikipediaのターゲット科学コーパスやSimpleWikipediaのような大きなテキストコーパスの支援を必要としていた。 しかし、大きなコーパスから知識を取得するのは時間がかかり、複雑な意味表現に埋め込まれた質問は検索を妨げる可能性がある。 認知科学における双対プロセス理論に触発されて,システム1は直感的なメタ分類器であり,システム2は推論モジュールであるメタqaフレームワークを提案する。 具体的には,メタラーニング手法と大規模言語モデル BERT に基づく手法により,外部知識ベースに頼ることなく,関連するサンプル質問から学習することで,科学的問題を効率的に解くことができる。 提案手法は,AI2推論チャレンジ(ARC)において評価され,メタ分類器が出現する問題に対してかなりの分類性能を示すことを示す実験結果が得られた。 メタ分類器によって提供される情報により、推論モジュールの精度が46.6%から64.2%に大幅に向上する。

Prior work in standardized science exams requires support from large text corpus, such as targeted science corpus fromWikipedia or SimpleWikipedia. However, retrieving knowledge from the large corpus is time-consuming and questions embedded in complex semantic representation may interfere with retrieval. Inspired by the dual process theory in cognitive science, we propose a MetaQA framework, where system 1 is an intuitive meta-classifier and system 2 is a reasoning module. Specifically, our method based on meta-learning method and large language model BERT, which can efficiently solve science problems by learning from related example questions without relying on external knowledge bases. We evaluate our method on AI2 Reasoning Challenge (ARC), and the experimental results show that meta-classifier yields considerable classification performance on emerging question types. The information provided by meta-classifier significantly improves the accuracy of reasoning module from 46.6% to 64.2%, which has a competitive advantage over retrieval-based QA methods.
翻訳日:2022-12-09 12:50:14 公開日:2020-04-26