このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200111となっている論文です。

PDF登録状況(公開日: 20200111)

TitleAuthorsAbstract論文公表日・翻訳日
# 数字埋め込みの学習

Learning Numeral Embeddings ( http://arxiv.org/abs/2001.00003v3 )

ライセンス: Link先を確認
Chengyue Jiang, Zhonglin Nian, Kaihao Guo, Shanbo Chu, Yinggong Zhao, Libin Shen, Kewei Tu(参考訳) 単語埋め込みは自然言語処理のためのディープラーニング手法に不可欠なビルディングブロックである。 単語埋め込みは長年にわたって広範囲に研究されてきたが、単語の特殊部分集合である数字を効果的に埋め込む方法の問題はまだ未定である。 既存の単語埋め込み法は、無限個の数字があり、訓練コーパスにおける個々の出現が非常に少ないため、数値埋め込みをうまく学ばない。 本稿では,数量体に対する外オブボカブラリー(oov)問題を扱うための2つの新しい数値埋め込み法を提案する。 まず, 自己組織写像あるいはガウス混合モデルを用いて, 有限個の原数集合を誘導する。 次に、数値の埋め込みを、プロトタイプ数埋め込みの重み付き平均として表現する。 この方法で表現された数字埋め込みは、トレーニングのためのスキップグラムのような既存の単語埋め込み学習アプローチにプラグインすることができる。 提案手法を評価し,単語の類似性,組込み数量,数値予測,シーケンスラベリングの4つの内在的タスクにおいて有効性を示した。

Word embedding is an essential building block for deep learning methods for natural language processing. Although word embedding has been extensively studied over the years, the problem of how to effectively embed numerals, a special subset of words, is still underexplored. Existing word embedding methods do not learn numeral embeddings well because there are an infinite number of numerals and their individual appearances in training corpora are highly scarce. In this paper, we propose two novel numeral embedding methods that can handle the out-of-vocabulary (OOV) problem for numerals. We first induce a finite set of prototype numerals using either a self-organizing map or a Gaussian mixture model. We then represent the embedding of a numeral as a weighted average of the prototype number embeddings. Numeral embeddings represented in this manner can be plugged into existing word embedding learning approaches such as skip-gram for training. We evaluated our methods and showed its effectiveness on four intrinsic and extrinsic tasks: word similarity, embedding numeracy, numeral prediction, and sequence labeling.
翻訳日:2023-01-17 12:54:14 公開日:2020-01-11
# グラフィカル制約下におけるガウス分布の潜在因子解析

Latent Factor Analysis of Gaussian Distributions under Graphical Constraints ( http://arxiv.org/abs/2001.02712v2 )

ライセンス: Link先を確認
Md Mahmudul Hasan, Shuangqing Wei, Ali Moharrer(参考訳) 凸最適化問題の解空間の代数的構造を探索し、人口共分散行列 $\Sigma_x$ が追加の潜在的グラフィカル制約、すなわち潜在星位相を持つとき、制約付き最小トレース因子解析(CMTFA)を行う。 特に、cmtfaはランク1$またはランク1$n-1$ソリューションのいずれかを持ち、その中間には何もありません。 ランク $ 1 $ の特別なケースは、1つの潜在変数が観測可能変数間のすべての依存関係をキャプチャし、スタートポロジーを生成するケースに対応している。 ランク 1 $ とランク $n-1$ の両方の明示的な条件を cmtfa ソリューションの $\sigma_x$ で見つけました。 より一般的なガウス木を構築するための基本的な試みとして、ガウス木を構築するために結合する最小の確率を満たすために、1$ CMTFA の階数を持つ複数のクラスタに対して必要かつ十分な条件を見出した。 分析結果を支援するために,本研究の有用性を示す数値的考察を行った。

We explore the algebraic structure of the solution space of convex optimization problem Constrained Minimum Trace Factor Analysis (CMTFA), when the population covariance matrix $\Sigma_x$ has an additional latent graphical constraint, namely, a latent star topology. In particular, we have shown that CMTFA can have either a rank $ 1 $ or a rank $ n-1 $ solution and nothing in between. The special case of a rank $ 1 $ solution, corresponds to the case where just one latent variable captures all the dependencies among the observables, giving rise to a star topology. We found explicit conditions for both rank $ 1 $ and rank $n- 1$ solutions for CMTFA solution of $\Sigma_x$. As a basic attempt towards building a more general Gaussian tree, we have found a necessary and a sufficient condition for multiple clusters, each having rank $ 1 $ CMTFA solution, to satisfy a minimum probability to combine together to build a Gaussian tree. To support our analytical findings we have presented some numerical demonstrating the usefulness of the contributions of our work.
翻訳日:2023-01-13 09:59:52 公開日:2020-01-11
# なぜ?-メンタルモデル分析によるAIの説明の評価

How to Answer Why -- Evaluating the Explanations of AI Through Mental Model Analysis ( http://arxiv.org/abs/2002.02526v1 )

ライセンス: Link先を確認
Tim Schrills, Thomas Franke(参考訳) ユーザとAIのインタラクションのコンテキストにおいて、最適なヒューマンシステム統合を実現するためには、AIの動作に関する有効な表現を開発することが重要である。 技術的システムとの日常的な相互作用のほとんどは、ユーザがメンタルモデルを構築する(つまり、システムが特定のタスクを実行するために使用する期待メカニズムの抽象化)。 システム(例えば、自己説明ai)や他の情報源(例えばインストラクター)によって明示的な説明が得られない場合、メンタルモデルは通常、経験、すなわち対話中のユーザの観察に基づいて形成される。 このメンタルモデルと実際のシステムが機能していることは、仮定、予測、そして結果としてシステムの使用に関する決定に使用されるため、不可欠である。 人間中心のAI研究の鍵となる疑問は、ユーザーのメンタルモデルをどのように有効に調査するかである。 本研究の目的は,精神モデル解析に適した誘発法を明らかにすることである。 実験的な研究手法としてメンタルモデルが適切かどうかを検討した。 また、認知学習の手法も統合されている。 本稿では,説明可能なaiアプローチを人間中心の方法で評価する例式を提案する。

To achieve optimal human-system integration in the context of user-AI interaction it is important that users develop a valid representation of how AI works. In most of the everyday interaction with technical systems users construct mental models (i.e., an abstraction of the anticipated mechanisms a system uses to perform a given task). If no explicit explanations are provided by a system (e.g. by a self-explaining AI) or other sources (e.g. an instructor), the mental model is typically formed based on experiences, i.e. the observations of the user during the interaction. The congruence of this mental model and the actual systems functioning is vital, as it is used for assumptions, predictions and consequently for decisions regarding system use. A key question for human-centered AI research is therefore how to validly survey users' mental models. The objective of the present research is to identify suitable elicitation methods for mental model analysis. We evaluated whether mental models are suitable as an empirical research method. Additionally, methods of cognitive tutoring are integrated. We propose an exemplary method to evaluate explainable AI approaches in a human-centered way.
翻訳日:2023-01-12 09:45:27 公開日:2020-01-11
# オブジェクトピックとプレーストレーニングのためのリワードエンジニアリング

Reward Engineering for Object Pick and Place Training ( http://arxiv.org/abs/2001.03792v1 )

ライセンス: Link先を確認
Raghav Nagpal, Achyuthan Unni Krishnan and Hanshen Yu(参考訳) ロボットの把持は、製造から医療まで、いくつかの産業の自動化を加速させる可能性があるため、研究の重要な分野である。 強化学習(Reinforcement learning)とは、エージェントが環境から報酬を探索して活用することによって行動を実行する政策を学ぶ研究分野である。 したがって、強化学習はエージェントが特定のタスクの実行方法、例えばオブジェクトをつかむ方法を学ぶのに使うことができる。 OpenAIのGymが提供するPick and Place環境を使って報酬をエンジニアリングしています。 hindsight experience replay (her) は、わずかな報酬を持つ問題で有望な結果を示している。 OpenAIベースラインと環境のデフォルト設定では、目標位置とロボットエンドエフェクタ間の距離を用いて報酬関数を算出する。 x,y,z-axの目標からエンドエフェクタの距離に基づいてコストを重み付けすることで,学習時間をさらに短縮する直感的な戦略であるOpenAIが提供するベースラインと比較して,学習時間をほぼ半減することができたのです。 また,本プロジェクトでは,学習方針(都市ブロック/マンハッタントラジェクトリ)にユーザ希望のトラジェクトリを導入することができた。 これは、報酬をエンジニアリングすることで、最も最適ではないが望ましい方法であっても、エージェントが特定の方法でポリシーを学ぶように調整できることを理解するのに役立ちます。

Robotic grasping is a crucial area of research as it can result in the acceleration of the automation of several Industries utilizing robots ranging from manufacturing to healthcare. Reinforcement learning is the field of study where an agent learns a policy to execute an action by exploring and exploiting rewards from an environment. Reinforcement learning can thus be used by the agent to learn how to execute a certain task, in our case grasping an object. We have used the Pick and Place environment provided by OpenAI's Gym to engineer rewards. Hindsight Experience Replay (HER) has shown promising results with problems having a sparse reward. In the default configuration of the OpenAI baseline and environment the reward function is calculated using the distance between the target location and the robot end-effector. By weighting the cost based on the distance of the end-effector from the goal in the x,y and z-axes we were able to almost halve the learning time compared to the baselines provided by OpenAI, an intuitive strategy that further reduced learning time. In this project, we were also able to introduce certain user desired trajectories in the learnt policies (city-block / Manhattan trajectories). This helps us understand that by engineering the rewards we can tune the agent to learn policies in a certain way even if it might not be the most optimal but is the desired manner.
翻訳日:2023-01-12 09:45:12 公開日:2020-01-11
# ASR N-best仮説の発散による音声言語理解の改善

Improving Spoken Language Understanding By Exploiting ASR N-best Hypotheses ( http://arxiv.org/abs/2001.05284v1 )

ライセンス: Link先を確認
Mingda Li, Weitong Ruan, Xinyue Liu, Luca Soldaini, Wael Hamza, Chengwei Su(参考訳) 現代音声言語理解(slu)システムでは、自然言語理解(nlu)モジュールは、自動音声認識(asr)モジュールから音声の解釈を入力として取り込む。 nluモジュールは通常、ドメインやインテントの分類のような下流タスクで与えられた音声の最初の最善の解釈を使用する。 しかし、ASRモジュールは一部の音声を誤認識する可能性があり、最初の最良の解釈は誤りでありうる。 最初の最高の解釈を頼りにすれば、下流タスクのパフォーマンスは最適ではない。 そこで本研究では,asrモジュールからのn-best音声解釈を総合的に活用することにより,入力音声の意味理解を改善するための簡易かつ効率的なモデルを提案する。

In a modern spoken language understanding (SLU) system, the natural language understanding (NLU) module takes interpretations of a speech from the automatic speech recognition (ASR) module as the input. The NLU module usually uses the first best interpretation of a given speech in downstream tasks such as domain and intent classification. However, the ASR module might misrecognize some speeches and the first best interpretation could be erroneous and noisy. Solely relying on the first best interpretation could make the performance of downstream tasks non-optimal. To address this issue, we introduce a series of simple yet efficient models for improving the understanding of semantics of the input speeches by collectively exploiting the n-best speech interpretations from the ASR module.
翻訳日:2023-01-12 09:44:48 公開日:2020-01-11
# 深部学習に基づくベイズフィルタを用いたX線蛍光顕微鏡におけるカテーテルチップ追跡による動的冠動脈ロードマッピング

Dynamic Coronary Roadmapping via Catheter Tip Tracking in X-ray Fluoroscopy with Deep Learning Based Bayesian Filtering ( http://arxiv.org/abs/2001.03801v1 )

ライセンス: Link先を確認
Hua Ma, Ihor Smal, Joost Daemen, Theo van Walsum(参考訳) 経皮的冠動脈インターベンション(pci)は通常、冠動脈をx線不透明造影剤でオパレートするx線血管造影法を用いて画像指導を行う。 インターベンショナル心臓科医は通常、コントラスト剤の使用が腎不全のリスクを高めるため、非コントラスト強調蛍光画像を用いて機器をナビゲートする。 フルオロスコープ画像を使用する場合、介入型心臓科医は精神解剖学的再構成に頼る必要がある。 本稿では,pciにおける視覚フィードバックの改善とコントラスト使用の低減を目的とした新しいダイナミック冠動脈ロードマップ作成手法の開発について報告する。 このアプローチはx線透視で心電図アライメントとカテーテル先端追跡により心・呼吸誘発血管運動を補償する。 特に,カテーテル先端の高精度かつロバストな追跡のために,畳み込みニューラルネットワークの検出結果と,粒子フィルタリングフレームワークを用いたフレーム間の運動推定を統合した,深層学習に基づくベイズフィルタリング手法を提案する。 提案手法を臨床X線画像で検証し,カテーテル先端追跡法と動的冠状ロードマップ法の両方で精度良く評価した。 さらに,本手法は1つのGPUを持つコンピュータ上でリアルタイムに動作し,PCIプロシージャの臨床ワークフローに統合される可能性があり,コントラストエージェントの余分な使用を必要とせず,介入中の視覚的ガイダンスを提供する。

Percutaneous coronary intervention (PCI) is typically performed with image guidance using X-ray angiograms in which coronary arteries are opacified with X-ray opaque contrast agents. Interventional cardiologists typically navigate instruments using non-contrast-enhanced fluoroscopic images, since higher use of contrast agents increases the risk of kidney failure. When using fluoroscopic images, the interventional cardiologist needs to rely on a mental anatomical reconstruction. This paper reports on the development of a novel dynamic coronary roadmapping approach for improving visual feedback and reducing contrast use during PCI. The approach compensates cardiac and respiratory induced vessel motion by ECG alignment and catheter tip tracking in X-ray fluoroscopy, respectively. In particular, for accurate and robust tracking of the catheter tip, we proposed a new deep learning based Bayesian filtering method that integrates the detection outcome of a convolutional neural network and the motion estimation between frames using a particle filtering framework. The proposed roadmapping and tracking approaches were validated on clinical X-ray images, achieving accurate performance on both catheter tip tracking and dynamic coronary roadmapping experiments. In addition, our approach runs in real-time on a computer with a single GPU and has the potential to be integrated into the clinical workflow of PCI procedures, providing cardiologists with visual guidance during interventions without the need of extra use of contrast agent.
翻訳日:2023-01-12 09:42:56 公開日:2020-01-11
# 有限次元量子系の準確率表現における古典性/量子性の測定について

On measures of classicality/quantumness in quasiprobability representations of finite-dimensional quantum systems ( http://arxiv.org/abs/2001.03737v1 )

ライセンス: Link先を確認
N. Abbasli, V. Abgaryan, M. Bures, A. Khvedelidze, I. Rogojin and A. Torosyan(参考訳) 本報告では、真の統計分布から準確率分布の偏差に基づく有限次元量子系の状態の古典性/量子性の測定について論じる。 特に、量子状態空間の割り当て幾何に対する古典性のグローバルな指標の依存は、ウィグナー準確率表現の族全体に対して解析される。 Hilbert-Schmidt, Bures および Bogoliubov-Kubo-Mori の qubit および qutrit のグローバルな古典性/量子性の指標を構築することで、一般的な考察が実証される。

In the present report we discuss measures of classicality/quantumness of states of finite-dimensional quantum systems, which are based on a deviation of quasiprobability distributions from true statistical distributions. Particularly, the dependence of the global indicator of classicality on the assigned geometry of a quantum state space is analysed for a whole family of Wigner quasiprobability representations. General considerations are exemplified by constructing the global indicator of classicality/quantumness for the Hilbert-Schmidt, Bures and Bogoliubov-Kubo-Mori ensembles of qubits and qutrits.
翻訳日:2023-01-12 09:42:30 公開日:2020-01-11
# 非正規性下でのベイズ半教師付き学習

Bayesian Semi-supervised learning under nonparanormality ( http://arxiv.org/abs/2001.03798v1 )

ライセンス: Link先を確認
Rui Zhu, Subhashis Ghosal(参考訳) 半教師付き学習は、ラベル付きデータとラベルなしデータの両方をトレーニングに用いる分類法である。 本論文では,ベイズ半教師付きモデルを用いた半教師付き学習アルゴリズムを提案する。 我々は、観測が同じ未知の変換の後、それらの真のラベルに依存する2つの多変量正規分布に従うと仮定する。 各コンポーネントの変換関数に先立って,B-splinesを使用します。 ラベルなしデータを半教師付き設定で使用するには、ラベルがランダムに欠落していると仮定する。 後続分布は、ギブスサンプリング法で計算した仮定を用いて記述することができる。 提案手法は, 広範囲なシミュレーション研究により, 他手法との比較を行った。 最後に,提案手法を実データに応用し,乳癌の診断とレーダリターンの分類を行う。 提案手法は, 様々なケースにおいて, 予測精度が向上した。

Semi-supervised learning is a classification method which makes use of both labeled data and unlabeled data for training. In this paper, we propose a semi-supervised learning algorithm using a Bayesian semi-supervised model. We make a general assumption that the observations will follow two multivariate normal distributions depending on their true labels after the same unknown transformation. We use B-splines to put a prior on the transformation function for each component. To use unlabeled data in a semi-supervised setting, we assume the labels are missing at random. The posterior distributions can then be described using our assumptions, which we compute by the Gibbs sampling technique. The proposed method is then compared with several other available methods through an extensive simulation study. Finally we apply the proposed method in real data contexts for diagnosing breast cancer and classify radar returns. We conclude that the proposed method has better prediction accuracy in a wide variety of cases.
翻訳日:2023-01-12 09:36:38 公開日:2020-01-11
# 三サイクルGANを用いた実世界深度画像の教師なし強調

Unsupervised Enhancement of Real-World Depth Images Using Tri-Cycle GAN ( http://arxiv.org/abs/2001.03779v1 )

ライセンス: Link先を確認
Alona Baruhov and Guy Gilboa(参考訳) 低品質の深度はコンピュータビジョンアルゴリズムにかなりの課題をもたらす。 本研究では,低コストセンサが取得した高分解能実空間深度画像の高分解能化を目指しており,分析ノイズモデルが利用できない。 クリーンな接地構造がなければ,2つの未経験トレーニングセットを用いて,低品質センサドメインと高品質センサドメインとの教師なしドメイン翻訳として,タスクにアプローチする。 我々は,この課題に高度に熟練したサイクロンGANを用いているが,この場合,性能が良くない。 故障の原因を同定し、より大きなジェネレータアーキテクチャ、欠落画素を考慮した奥行き特異的損失、ドメイン間の非対称性に対処しながら情報保存を促進する新しいトリサイクル損失など、フレームワークにいくつかの変更を加える。 その結果,元のCycle-GANを視覚的かつ定量的に改善し,その適用性をより困難で非対称な翻訳タスクにまで拡張した。

Low quality depth poses a considerable challenge to computer vision algorithms. In this work we aim to enhance highly degraded, real-world depth images acquired by a low-cost sensor, for which an analytical noise model is unavailable. In the absence of clean ground-truth, we approach the task as an unsupervised domain-translation between the low-quality sensor domain and a high-quality sensor domain, represented using two unpaired training sets. We employ the highly-successful Cycle-GAN to this task, but find it to perform poorly in this case. Identifying the sources of the failure, we introduce several modifications to the framework, including a larger generator architecture, depth-specific losses that take into account missing pixels, and a novel Tri-Cycle loss which promotes information-preservation while addressing the asymmetry between the domains. We show that the resulting framework dramatically improves over the original Cycle-GAN both visually and quantitatively, extending its applicability to more challenging and asymmetric translation tasks.
翻訳日:2023-01-12 09:36:25 公開日:2020-01-11
# Patent Transformer-2: 構造メタデータによる特許文書生成制御

PatentTransformer-2: Controlling Patent Text Generation by Structural Metadata ( http://arxiv.org/abs/2001.03708v1 )

ライセンス: Link先を確認
Jieh-Sheng Lee and Jieh Hsiang(参考訳) PatentTransformerは、Transformerベースのモデルに基づく特許テキスト生成のためのコードネームです。 目標は"Augmented Inventing"です。 この第2バージョンでは、特許における構造メタデータをより活用しています。 構造メタデータは、以前に独立したクレームに加えて、特許権、抽象権、従属権を含む。 メタデータは、モデルが生成する特許テキストの種類を制御する。 また、メタデータ間の関係を利用してテキストからテキストへの生成フローを構築する。例えば、数語からタイトル、タイトルから抽象語への変換、独立したクレームへの抽象化、複数の依存クレームへの独立クレームなどである。 関係が双方向に訓練されているため、テキストフローは後方に進むことができる。 我々は、スクラッチからトレーニングされたGPT-2モデルと推論のためのコードをリリースし、読者が自分で特許文書を検証して生成できるようにした。 世代品質については、rougeとgoogle universal sentence encodingrの両方で測定します。

PatentTransformer is our codename for patent text generation based on Transformer-based models. Our goal is "Augmented Inventing." In this second version, we leverage more of the structural metadata in patents. The structural metadata includes patent title, abstract, and dependent claim, in addition to independent claim previously. Metadata controls what kind of patent text for the model to generate. Also, we leverage the relation between metadata to build a text-to-text generation flow, for example, from a few words to a title, the title to an abstract, the abstract to an independent claim, and the independent claim to multiple dependent claims. The text flow can go backward because the relation is trained bidirectionally. We release our GPT-2 models trained from scratch and our code for inference so that readers can verify and generate patent text on their own. As for generation quality, we measure it by both ROUGE and Google Universal Sentence Encoder.
翻訳日:2023-01-12 09:36:05 公開日:2020-01-11
# テキストからクロスコンテキストエンティティ表現を学ぶ

Learning Cross-Context Entity Representations from Text ( http://arxiv.org/abs/2001.03765v1 )

ライセンス: Link先を確認
Jeffrey Ling, Nicholas FitzGerald, Zifei Shan, Livio Baldini Soares, Thibault F\'evry, David Weiss, Tom Kwiatkowski(参考訳) 局所的な文脈に基づいて単語や単語が予測される言語モデリングタスクは、単語の埋め込みや句の文脈依存表現を学習するのに非常に効果的である。 本研究は,世界知識を機械可読知識ベースや人間可読百科事典にコーディングする作業がエンティティ中心になる傾向にあるという観察に触発され,それらのエンティティが言及されたテキストコンテキストから実体の文脈に依存しない表現を学習するための補足タスクの利用について検討する。 We show that large scale training of neural models allows us to learn high quality entity representations, and we demonstrate successful results on four domains: (1) existing entity-level typing benchmarks, including a 64% error reduction over previous work on TypeNet (Murty et al., 2018); (2) a novel few-shot category reconstruction task; (3) existing entity linking benchmarks, where we match the state-of-the-art on CoNLL-Aida without linking-specific features and obtain a score of 89.8% on TAC-KBP 2010 without using any alias table, external knowledge base or in domain training data and (4) answering trivia questions, which uniquely identify entities. 私たちのグローバルな実体表現は、スコットランドのサッカー選手のようなきめ細かいタイプカテゴリーをエンコードしており、ベルリンにおけるスパンダウ刑務所の最後の受刑者は誰ですか?

Language modeling tasks, in which words, or word-pieces, are predicted on the basis of a local context, have been very effective for learning word embeddings and context dependent representations of phrases. Motivated by the observation that efforts to code world knowledge into machine readable knowledge bases or human readable encyclopedias tend to be entity-centric, we investigate the use of a fill-in-the-blank task to learn context independent representations of entities from the text contexts in which those entities were mentioned. We show that large scale training of neural models allows us to learn high quality entity representations, and we demonstrate successful results on four domains: (1) existing entity-level typing benchmarks, including a 64% error reduction over previous work on TypeNet (Murty et al., 2018); (2) a novel few-shot category reconstruction task; (3) existing entity linking benchmarks, where we match the state-of-the-art on CoNLL-Aida without linking-specific features and obtain a score of 89.8% on TAC-KBP 2010 without using any alias table, external knowledge base or in domain training data and (4) answering trivia questions, which uniquely identify entities. Our global entity representations encode fine-grained type categories, such as Scottish footballers, and can answer trivia questions such as: Who was the last inmate of Spandau jail in Berlin?
翻訳日:2023-01-12 09:35:51 公開日:2020-01-11
# ドメイン非依存防御によるマルチタスク深層ニューラルネットワークのロバスト性の探索と改善

Exploring and Improving Robustness of Multi Task Deep Neural Networks via Domain Agnostic Defenses ( http://arxiv.org/abs/2001.05286v1 )

ライセンス: Link先を確認
Kashyap Coimbatore Murali(参考訳) 本稿では,多タスク深層ニューラルネットワーク(mt-dnn)の自然言語理解(nlu)タスクにまたがる非標的敵攻撃に対する頑健性や,それらに対する防御方法について検討する。 Liuらによると、マルチタスクディープニューラルネットワークは、クロスタスクデータによってトレーニング時に発生する正規化効果により、1つのタスクでのみトレーニングされたバニラBERTモデルよりも堅牢である(1.1%-1.5%の絶対差)。 さらに、MT-DNNはより一般化されており、ドメインやタスク間で簡単に転送可能であるが、SNLIタスクとSciTailタスクの精度が42.05%、32.24%低下した2つの攻撃(1文字と2文字)の後に、妥協可能であることも示している。 最後に,汎用防衛や市販スペルチェッカーとは対照的に,モデルの精度(それぞれ36.75%,25.94%)を回復するドメイン非依存防御を提案する。

In this paper, we explore the robustness of the Multi-Task Deep Neural Networks (MT-DNN) against non-targeted adversarial attacks across Natural Language Understanding (NLU) tasks as well as some possible ways to defend against them. Liu et al., have shown that the Multi-Task Deep Neural Network, due to the regularization effect produced when training as a result of its cross task data, is more robust than a vanilla BERT model trained only on one task (1.1%-1.5% absolute difference). We further show that although the MT-DNN has generalized better, making it easily transferable across domains and tasks, it can still be compromised as after only 2 attacks (1-character and 2-character) the accuracy drops by 42.05% and 32.24% for the SNLI and SciTail tasks. Finally, we propose a domain agnostic defense which restores the model's accuracy (36.75% and 25.94% respectively) as opposed to a general-purpose defense or an off-the-shelf spell checker.
翻訳日:2023-01-12 09:35:30 公開日:2020-01-11
# 部分観測可能なマルコフ決定過程における点ベースモデル検査法

Point-Based Methods for Model Checking in Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2001.03809v1 )

ライセンス: Link先を確認
Maxime Bouton, Jana Tumova, and Mykel J. Kochenderfer(参考訳) 自律システムは、部分的に観測可能な環境で運用するためにしばしば必要となる。 環境の状態に関する不完全な情報であっても、指定された目的を確実に実行しなければならない。 本稿では,線形時間論理式を満たすポリシーを部分的に観測可能なマルコフ決定プロセス(POMDP)で合成する手法を提案する。 計画問題の定式化により,所望の論理式を満たす最大確率を効率的に近似し,関連する信念状態ポリシーを計算するために,ポイントベース価値反復法をどのように利用するかを示す。 我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。

Autonomous systems are often required to operate in partially observable environments. They must reliably execute a specified objective even with incomplete information about the state of the environment. We propose a methodology to synthesize policies that satisfy a linear temporal logic formula in a partially observable Markov decision process (POMDP). By formulating a planning problem, we show how to use point-based value iteration methods to efficiently approximate the maximum probability of satisfying a desired logical formula and compute the associated belief state policy. We demonstrate that our method scales to large POMDP domains and provides strong bounds on the performance of the resulting policy.
翻訳日:2023-01-12 09:35:08 公開日:2020-01-11
# 文字レベルCNNを用いたバングラ文学における著者属性

Authorship Attribution in Bangla literature using Character-level CNN ( http://arxiv.org/abs/2001.05316v1 )

ライセンス: Link先を確認
Aisha Khatun, Anisur Rahman, Md. Saiful Islam, Marium-E-Jannat(参考訳) 文字はテキストの最小単位であり、テクストの著者を決定するためにテクスチャ信号を取り出すことができる。 本稿では,バングラ文学の権威属性における文字レベル信号の有効性について検討し,その結果が有望だが即効性を示す。 提案したモデルの時間とメモリ効率はワードレベルのモデルよりもはるかに高いが、精度は最高のワードレベルのモデルよりも2-5%低い。 様々な単語ベースモデルの比較を行い、提案モデルがより大きなデータセットでより良く動作することを示す。 また,著者属性における多様なBangla文字セットの事前学習文字埋め込みの効果も分析した。 事前トレーニングでは最大10%パフォーマンスが向上している。 6から14人の著者から2つのデータセットを使用して、トレーニング前にバランスをとり、結果を比較しました。

Characters are the smallest unit of text that can extract stylometric signals to determine the author of a text. In this paper, we investigate the effectiveness of character-level signals in Authorship Attribution of Bangla Literature and show that the results are promising but improvable. The time and memory efficiency of the proposed model is much higher than the word level counterparts but accuracy is 2-5% less than the best performing word-level models. Comparison of various word-based models is performed and shown that the proposed model performs increasingly better with larger datasets. We also analyze the effect of pre-training character embedding of diverse Bangla character set in authorship attribution. It is seen that the performance is improved by up to 10% on pre-training. We used 2 datasets from 6 to 14 authors, balancing them before training and compare the results.
翻訳日:2023-01-12 09:27:19 公開日:2020-01-11
# MHSAN:ビジュアルセマンティックな埋め込みのためのマルチヘッドセルフアテンションネットワーク

MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding ( http://arxiv.org/abs/2001.03712v1 )

ライセンス: Link先を確認
Geondo Park, Chihye Han, Wonjun Yoon, Daeshik Kim(参考訳) visual-semantic embeddedは、画像テキスト検索、画像キャプション、視覚的質問応答などの様々なタスクを可能にする。 視覚的セマンティックな埋め込みの成功の鍵は、複雑な関係を考慮し、視覚的およびテキスト的データを適切に表現することである。 これまでの研究は、視覚とテキストのデータを類似した概念が密接な結合空間にエンコードすることで大きな進歩を遂げてきたが、画像やテキストにおける複数の重要な要素の存在を無視する単一のベクトルによってデータを表現することが多い。 そこで本稿では, 共同埋め込み空間に加えて, 視覚的, テキスト的データの様々な成分を, 重要な部分への参加によって捕捉する, 新たな自己認識ネットワークを提案する。 提案手法は,MS-COCOおよびFlicker30Kデータセット上の画像テキスト検索タスクにおける最新の結果を実現する。 画像とテキスト中の複数の位置で異なる意味成分をキャプチャする注目マップの可視化を通じて,本手法が効果的かつ解釈可能な視覚-意味結合空間を実現することを示す。

Visual-semantic embedding enables various tasks such as image-text retrieval, image captioning, and visual question answering. The key to successful visual-semantic embedding is to express visual and textual data properly by accounting for their intricate relationship. While previous studies have achieved much advance by encoding the visual and textual data into a joint space where similar concepts are closely located, they often represent data by a single vector ignoring the presence of multiple important components in an image or text. Thus, in addition to the joint embedding space, we propose a novel multi-head self-attention network to capture various components of visual and textual data by attending to important parts in data. Our approach achieves the new state-of-the-art results in image-text retrieval tasks on MS-COCO and Flicker30K datasets. Through the visualization of the attention maps that capture distinct semantic components at multiple positions in the image and the text, we demonstrate that our method achieves an effective and interpretable visual-semantic joint space.
翻訳日:2023-01-12 09:26:54 公開日:2020-01-11
# パラメトリック確率的量子メモリ

Parametric Probabilistic Quantum Memory ( http://arxiv.org/abs/2001.04798v1 )

ライセンス: Link先を確認
Rodrigo S. Sousa, Priscila G.M. dos Santos, Tiago M.L. Veras, Wilson R. de Oliveira and Adenilton J. da Silva(参考訳) 確率量子メモリ (Probabilistic Quantum Memory, PQM) は、メモリ上の重ね合わせに格納された全てのバイナリパターンまでの距離を計算するデータ構造である。 このデータ構造は、ニューラルネットワークアーキテクチャの選択を高速化するヒューリスティックの開発を可能にする。 本研究では,パターン分類を行うためのPQMのパラメトリックバージョンを提案するとともに,ノイズ中間スケール量子(NISQ)コンピュータに適したPQM量子回路を提案する。 本稿では,PQMネットワーク分類器のベンチマークデータを用いた古典的評価を行う。 また,5量子ビット量子コンピュータ上でのPQMの実現可能性を検証する実験を行った。

Probabilistic Quantum Memory (PQM) is a data structure that computes the distance from a binary input to all binary patterns stored in superposition on the memory. This data structure allows the development of heuristics to speed up artificial neural networks architecture selection. In this work, we propose an improved parametric version of the PQM to perform pattern classification, and we also present a PQM quantum circuit suitable for Noisy Intermediate Scale Quantum (NISQ) computers. We present a classical evaluation of a parametric PQM network classifier on public benchmark datasets. We also perform experiments to verify the viability of PQM on a 5-qubit quantum computer.
翻訳日:2023-01-12 09:26:36 公開日:2020-01-11
# ベンガル語のための連続空間ニューラル言語モデル

A Continuous Space Neural Language Model for Bengali Language ( http://arxiv.org/abs/2001.05315v1 )

ライセンス: Link先を確認
Hemayet Ahmed Chowdhury, Md. Azizul Haque Imon, Anisur Rahman, Aisha Khatun, Md. Saiful Islam(参考訳) 言語モデルは一般に様々な言語単位の確率分布を推定するために用いられ、自然言語処理の基本的な部分の1つである。 言語モデルの応用には、テキストの要約、翻訳、分類といった幅広いタスクが含まれる。 bengaliのような低リソース言語の場合、これまでのこの領域の研究は少なくとも狭く、いくつかの伝統的なカウントベースモデルが提案されている。 本稿では,この問題に対処するために,連続空間型ニューラルネットワークモデルを提案する。具体的には,asgd重み下げlstm言語モデルと,ベンガル語用に効率的に学習する手法を提案する。 本論文で示す数式モデルの性能分析により,提案手法は,ベンガルの保持されたデータセット上で,51.2 未満の推論パープレキシティを達成することで,そのアーキテクチャよりも優れていることが示された。

Language models are generally employed to estimate the probability distribution of various linguistic units, making them one of the fundamental parts of natural language processing. Applications of language models include a wide spectrum of tasks such as text summarization, translation and classification. For a low resource language like Bengali, the research in this area so far can be considered to be narrow at the very least, with some traditional count based models being proposed. This paper attempts to address the issue and proposes a continuous-space neural language model, or more specifically an ASGD weight dropped LSTM language model, along with techniques to efficiently train it for Bengali Language. The performance analysis with some currently existing count based models illustrated in this paper also shows that the proposed architecture outperforms its counterparts by achieving an inference perplexity as low as 51.2 on the held out data set for Bengali.
翻訳日:2023-01-12 09:26:25 公開日:2020-01-11
# タグによるスクリーンショットからのオンデバイス情報抽出

On- Device Information Extraction from Screenshots in form of tags ( http://arxiv.org/abs/2001.06094v1 )

ライセンス: Link先を確認
Sumit Kumar, Gopi Ramena, Manoj Goyal, Debi Mohanty, Ankur Agarwal, Benu Changmai, Sukumar Moharana(参考訳) モバイルのスクリーンショットを検索しやすくする方法を提案する。 本稿では,そのワークフローについて述べる。 1) スクリーンショットの事前処理。 2)同一のスクリプトプレゼンス画像, 3)画像から非構造化テキストを抽出する。 4)抽出されたテキストの同一語 5)テキストから抽出したキーワード 6)画像の特徴に基づく識別タグ。 7)関連キーワードの識別による拡張タグセット 8) 関連画像に画像タグを挿入してインデックス化し,デバイス上で検索可能とした。 複数の言語をサポートするパイプラインを作り、デバイス上で実行しました。 我々は、パイプライン内のコンポーネントのための新しいアーキテクチャ、オンデバイス計算のためのパフォーマンスとメモリを最適化した。 実験の結果,開発したソリューションは,ユーザ全体の労力を削減し,検索中のエンドユーザエクスペリエンスを向上させることができることがわかった。

We propose a method to make mobile screenshots easily searchable. In this paper, we present the workflow in which we: 1) preprocessed a collection of screenshots, 2) identified script presentin image, 3) extracted unstructured text from images, 4) identifiedlanguage of the extracted text, 5) extracted keywords from the text, 6) identified tags based on image features, 7) expanded tag set by identifying related keywords, 8) inserted image tags with relevant images after ranking and indexed them to make it searchable on device. We made the pipeline which supports multiple languages and executed it on-device, which addressed privacy concerns. We developed novel architectures for components in the pipeline, optimized performance and memory for on-device computation. We observed from experimentation that the solution developed can reduce overall user effort and improve end user experience while searching, whose results are published.
翻訳日:2023-01-12 09:25:56 公開日:2020-01-11