このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200903となっている論文です。

PDF登録状況(公開日: 20200903)

TitleAuthorsAbstract論文公表日・翻訳日
# スパースピボット推定のためのサポートリカバリと超ノルム収束率

Support recovery and sup-norm convergence rates for sparse pivotal estimation ( http://arxiv.org/abs/2001.05401v3 )

ライセンス: Link先を確認
Mathurin Massias and Quentin Bertrand and Alexandre Gramfort and Joseph Salmon(参考訳) 高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。 正準ピボット推定器は平方根ラッソであり、微分とともに「非滑らか+非滑らか」最適化問題として定式化されている。 これらを解決するための現代的な手法には、高速な近似アルゴリズムの恩恵を受けるために、データ適合項を滑らかにすることが含まれる。 本研究では、非滑らかで滑らかな単一タスクとマルチタスク平方根ラッソ型推定器に対するミニマックス超ノルム収束率を示す。 理論解析により,スムース化ハイパーパラメータの設定方法に関するガイドラインを提示し,それらのガイドラインの興味を合成データに示す。

In high dimensional sparse regression, pivotal estimators are estimators for which the optimal regularization parameter is independent of the noise level. The canonical pivotal estimator is the square-root Lasso, formulated along with its derivatives as a "non-smooth + non-smooth" optimization problem. Modern techniques to solve these include smoothing the datafitting term, to benefit from fast efficient proximal algorithms. In this work we show minimax sup-norm convergence rates for non smoothed and smoothed, single task and multitask square-root Lasso-type estimators. Thanks to our theoretical analysis, we provide some guidelines on how to set the smoothing hyperparameter, and illustrate on synthetic data the interest of such guidelines.
翻訳日:2023-01-11 06:15:56 公開日:2020-09-03
# ハイパーパラメータ最適化のためのラッソ型モデルの帰納的微分

Implicit differentiation of Lasso-type models for hyperparameter optimization ( http://arxiv.org/abs/2002.08943v3 )

ライセンス: Link先を確認
Quentin Bertrand and Quentin Klopfenstein and Mathieu Blondel and Samuel Vaiter and Alexandre Gramfort and Joseph Salmon(参考訳) ラッソ型推定器の正規化パラメータの設定は難しいが、実際は極めて重要である。 最も一般的なハイパーパラメータ最適化アプローチは、保留検証データを用いたグリッド検索である。 しかし、グリッド検索では、パラメータ数で指数関数的にスケールする各パラメータの事前定義されたグリッドを選択する必要がある。 もう1つのアプローチは、勾配降下によって解決できる双レベル最適化問題としてハイパーパラメータ最適化をキャストすることである。 これらの手法の鍵となる課題は、ハイパーパラメータに関する勾配の推定である。 この勾配を前方または後方で計算することは可能であるが、通常は高いメモリ消費に悩まされる。 あるいは、暗黙的な微分は通常、高次元において禁止的で数値的に不安定な線形系を解く。 加えて、暗黙的な微分は通常滑らかな損失関数を仮定するが、これはラッソ型問題には当てはまらない。 この研究は、ラッソ型問題に適した行列反転のない効率的な暗黙微分アルゴリズムを導入する。 提案手法は,解の空間性を利用して高次元データにスケールする。 実験により,提案手法はホールドアウトデータの誤差を最適化するための多くの標準手法,すなわちStein Unbiased Risk Estimator(SURE)より優れていることが示された。

Setting regularization parameters for Lasso-type estimators is notoriously difficult, though crucial in practice. The most popular hyperparameter optimization approach is grid-search using held-out validation data. Grid-search however requires to choose a predefined grid for each parameter, which scales exponentially in the number of parameters. Another approach is to cast hyperparameter optimization as a bi-level optimization problem, one can solve by gradient descent. The key challenge for these methods is the estimation of the gradient with respect to the hyperparameters. Computing this gradient via forward or backward automatic differentiation is possible yet usually suffers from high memory consumption. Alternatively implicit differentiation typically involves solving a linear system which can be prohibitive and numerically unstable in high dimension. In addition, implicit differentiation usually assumes smooth loss functions, which is not the case for Lasso-type problems. This work introduces an efficient implicit differentiation algorithm, without matrix inversion, tailored for Lasso-type problems. Our approach scales to high-dimensional data by leveraging the sparsity of the solutions. Experiments demonstrate that the proposed method outperforms a large number of standard methods to optimize the error on held-out data, or the Stein Unbiased Risk Estimator (SURE).
翻訳日:2022-12-30 06:59:08 公開日:2020-09-03
# リンク予測のためのネットワーク埋め込みモデルのベンチマーク:進展中か?

Benchmarking Network Embedding Models for Link Prediction: Are We Making Progress? ( http://arxiv.org/abs/2002.11522v5 )

ライセンス: Link先を確認
Alexandru Mara, Jefrey Lijffijt and Tijl De Bie(参考訳) ネットワーク埋め込み手法はネットワークのノードを埋め込み空間内のベクトルにマッピングし、ネットワーク内のノード対間の類似性や近接性の概念を推定するのに有用である。 これらのノード表現の品質は、下流予測タスクの結果によって示される。 しかし、リンク予測のようなベンチマークタスクでは、複雑な評価パイプラインと設計選択が豊富に存在する。 これにより、標準化された評価設定の欠如とともに、現場の本当の進歩を曖昧にすることができる。 本稿では,リンク予測のためのネットワーク埋め込み手法の現状に光を当てることを目的としており,一貫した評価パイプラインを用いて,過去数年間でわずかに進展したことを示す。 新たに実施した17の埋め込み手法を含むベンチマークでは、単純なヒューリスティックスでも多くのアプローチが優れていることが示されている。 最後に、標準化された評価ツールは、この状況を修復し、この分野の将来の発展を促進することができると論じる。

Network embedding methods map a network's nodes to vectors in an embedding space, in such a way that these representations are useful for estimating some notion of similarity or proximity between pairs of nodes in the network. The quality of these node representations is then showcased through results of downstream prediction tasks. Commonly used benchmark tasks such as link prediction, however, present complex evaluation pipelines and an abundance of design choices. This, together with a lack of standardized evaluation setups can obscure the real progress in the field. In this paper, we aim to shed light on the state-of-the-art of network embedding methods for link prediction and show, using a consistent evaluation pipeline, that only thin progress has been made over the last years. The newly conducted benchmark that we present here, including 17 embedding methods, also shows that many approaches are outperformed even by simple heuristics. Finally, we argue that standardized evaluation tools can repair this situation and boost future progress in this field.
翻訳日:2022-12-28 21:00:51 公開日:2020-09-03
# 3次元メッシュのエンド・ツー・エンド幾何欠陥除去アルゴリズム

An End-to-End Geometric Deficiency Elimination Algorithm for 3D Meshes ( http://arxiv.org/abs/2003.06535v2 )

ライセンス: Link先を確認
Bingtao Ma and Hongsen Liu and Liangliang Nan and Yang Cong(参考訳) 3Dメッシュは幾何学的データの重要な表現である。 メッシュデータの生成では、幾何学的欠陥(例えば、重複要素、退化面、孤立した頂点、自己切断、内面)は避けられず、物体の位相構造に反する可能性がある。 本稿では,3次元メッシュの有効かつ効率的な幾何学的欠陥除去アルゴリズムを提案する。 Specifically, duplicate elements can be eliminated by assessing the occurrence times of vertices or faces; degenerate faces can be removed according to the outer product of two edges; since isolated vertices do not appear in any face vertices, they can be deleted directly; self-intersecting faces are detected using an AABB tree and remeshed afterward; by simulating whether multiple random rays that shoot from a face can reach infinity, we can judge whether the surface is an inner face, then decide to delete it or not. modelnet40データセットの実験は、3dメッシュの欠陥を完全に排除できることを示しています。

The 3D mesh is an important representation of geometric data. In the generation of mesh data, geometric deficiencies (e.g., duplicate elements, degenerate faces, isolated vertices, self-intersection, and inner faces) are unavoidable and may violate the topology structure of an object. In this paper, we propose an effective and efficient geometric deficiency elimination algorithm for 3D meshes. Specifically, duplicate elements can be eliminated by assessing the occurrence times of vertices or faces; degenerate faces can be removed according to the outer product of two edges; since isolated vertices do not appear in any face vertices, they can be deleted directly; self-intersecting faces are detected using an AABB tree and remeshed afterward; by simulating whether multiple random rays that shoot from a face can reach infinity, we can judge whether the surface is an inner face, then decide to delete it or not. Experiments on ModelNet40 dataset illustrate that our method can eliminate the deficiencies of the 3D mesh thoroughly.
翻訳日:2022-12-23 20:22:14 公開日:2020-09-03
# ワンショットインフォームドロボットによる野生の視覚探索

One-Shot Informed Robotic Visual Search in the Wild ( http://arxiv.org/abs/2003.10010v2 )

ライセンス: Link先を確認
Karim Koreitem, Florian Shkurti, Travis Manderson, Wei-Di Chang, Juan Camilo Gamboa Higuera, Gregory Dudek(参考訳) 環境モニタリングのための科学的関連映像データ収集を目的とした水中ロボットナビゲーションの課題について考察する。 現在、未構造化の自然環境において監視タスクを行うフィールドロボットの大多数は、事前に指定された経路ポイントのシーケンスを追跡する経路をナビゲートする。 このナビゲーション手法は、しばしば必要だが、ロボットには科学者が関連する視覚観察と判断するもののモデルがないため、制限されている。 したがって、ロボットは特定の種類の物体を視覚的に検索することも、事前に特定された方向や視点よりも関連性のあるシーンの一部に注意を集中することもできない。 本稿では,ロボットの視覚探索を映像のように見える部分へ誘導する学習視覚類似度操作によるインフォームドビジュアルナビゲーションを実現する手法を提案する。 本研究では,水中領域における類似タスクに対して,ImageNetの埋め込みよりも優れた映像表現学習手法を提案する。 また,ロボットと人間の科学者が協調して関連する視覚コンテンツを探索する大規模実験において,協調環境モニタリングシナリオにおけるインフォームド・ビジュアルナビゲーションにおけるこの類似性操作の展開を実証した。

We consider the task of underwater robot navigation for the purpose of collecting scientifically relevant video data for environmental monitoring. The majority of field robots that currently perform monitoring tasks in unstructured natural environments navigate via path-tracking a pre-specified sequence of waypoints. Although this navigation method is often necessary, it is limiting because the robot does not have a model of what the scientist deems to be relevant visual observations. Thus, the robot can neither visually search for particular types of objects, nor focus its attention on parts of the scene that might be more relevant than the pre-specified waypoints and viewpoints. In this paper we propose a method that enables informed visual navigation via a learned visual similarity operator that guides the robot's visual search towards parts of the scene that look like an exemplar image, which is given by the user as a high-level specification for data collection. We propose and evaluate a weakly supervised video representation learning method that outperforms ImageNet embeddings for similarity tasks in the underwater domain. We also demonstrate the deployment of this similarity operator during informed visual navigation in collaborative environmental monitoring scenarios, in large-scale field trials, where the robot and a human scientist collaboratively search for relevant visual content.
翻訳日:2022-12-21 05:34:06 公開日:2020-09-03
# フレキシブルトランスミッタネットワーク

Flexible Transmitter Network ( http://arxiv.org/abs/2004.03839v3 )

ライセンス: Link先を確認
Shao-Qun Zhang and Zhi-Hua Zhou(参考訳) 現在のニューラルネットワークはMPモデルに基づいて構築されており、通常はニューロンを他のニューロンから受信した信号の実際の重み付け集約上での活性化関数の実行として定式化する。 本稿では,フレキシブル・トランスミッタ(FT)モデルを提案する。 FTモデルは、ニューロン間の伝達体をモデル化するために一対のパラメータを使用し、制御されたニューロトロフィン密度を記録するためにニューロン排他変数を配置し、FTモデルを2変数の2値関数として定式化する。 このモデリング手法により、FTモデルは生物学的により現実的なだけでなく、時系列でも複雑なデータを扱うことができる。 そのパワーと可能性を示すために、FTモデルを基本ビルディングブロックとして、最も一般的な完全接続型フィードフォワードアーキテクチャ上に構築されたフレキシブルトランスミッタネットワーク(FTNet)を提案する。 FTNetは勾配計算を可能にし、複雑な値の領域で改善されたバックプロパゲーションアルゴリズムによって実装できる。 タスクのボード上での実験は、提案されたFTNetの優位性を示している。 本研究は、ニューラルネットワークにおける代替の基本構造ブロックを提供し、神経可塑性を持つ人工ニューラルネットワークの開発の可能性を示す。

Current neural networks are mostly built upon the MP model, which usually formulates the neuron as executing an activation function on the real-valued weighted aggregation of signals received from other neurons. In this paper, we propose the Flexible Transmitter (FT) model, a novel bio-plausible neuron model with flexible synaptic plasticity. The FT model employs a pair of parameters to model the transmitters between neurons and puts up a neuron-exclusive variable to record the regulated neurotrophin density, which leads to the formulation of the FT model as a two-variable two-valued function, taking the commonly-used MP neuron model as its special case. This modeling manner makes the FT model not only biologically more realistic, but also capable of handling complicated data, even time series. To exhibit its power and potential, we present the Flexible Transmitter Network (FTNet), which is built on the most common fully-connected feed-forward architecture taking the FT model as the basic building block. FTNet allows gradient calculation and can be implemented by an improved back-propagation algorithm in the complex-valued domain. Experiments on a board range of tasks show the superiority of the proposed FTNet. This study provides an alternative basic building block in neural networks and exhibits the feasibility of developing artificial neural networks with neuronal plasticity.
翻訳日:2022-12-15 08:00:23 公開日:2020-09-03
# Occam's Razor の単純性に関する形式的理論

Grounding Occam's Razor in a Formal Theory of Simplicity ( http://arxiv.org/abs/2004.05269v2 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 単純さの形式的理論は、計算を相互にエージェントの集団の反復的変換および構成的活動を構成すると見なす「国民的」計算モデルの文脈において導入される。 アルゴリズム情報等の観点からの従来の簡易性尺度は、合成単純度尺度(CoSM)として定義されている「対称性」特性のより広範な理解の特別な事例であることが示されている。 CoSMs のこの理論は、複数の単純度を同時に利用する CoSMOS (Combinational Simplicity Measure Operating Sets) の理論にまで拡張されている。 単純度測定のベクトルが与えられたとき、エンティティは個々の単純度値ではなく、パレート最適単純度値ベクトルの「単純度バンドル」と関連付けられる。 その後、CoSMとCoSMOSはパターンとマルチパターンの理論の基礎として、そしてパターンのシステムにおける階層とヘテロ構造の理論として使用される。 コヒーレントなデュアルネットワーク"という認知システム概念の形式化について,一貫性のある階層構造とヘテロ階層性について述べる。 疑わしいときは、単純束がパレート最適である仮説を優先するが、その理由の一部は、協調的かつ一貫した多パターン階層とヘテロ構造からなるコヒーレントな双対ネットワークの構築によって、両方の利点と利点が得られているからである。

A formal theory of simplicity is introduced, in the context of a "combinational" computation model that views computation as comprising the iterated transformational and compositional activity of a population of agents upon each other. Conventional measures of simplicity in terms of algorithmic information etc. are shown to be special cases of a broader understanding of the core "symmetry" properties constituting what is defined here as a Compositional Simplicity Measure (CoSM). This theory of CoSMs is extended to a theory of CoSMOS (Combinational Simplicity Measure Operating Sets) which involve multiple simplicity measures utilized together. Given a vector of simplicity measures, an entity is associated not with an individual simplicity value but with a "simplicity bundles" of Pareto-optimal simplicity-value vectors. CoSMs and CoSMOS are then used as a foundation for a theory of pattern and multipattern, and a theory of hierarchy and heterarchy in systems of patterns. A formalization of the cognitive-systems notion of a "coherent dual network" interweaving hierarchy and heterarchy in a consistent way is presented. The high level end result of this investigation is to re-envision Occam's Razor as something like: When in doubt, prefer hypotheses whose simplicity bundles are Pareto optimal, partly because doing so both permits and benefits from the construction of coherent dual networks comprising coordinated and consistent multipattern hierarchies and heterarchies.
翻訳日:2022-12-14 12:51:26 公開日:2020-09-03
# 自然言語処理研究におけるジェンダーギャップ:オーサシップとサイテーションの差異

Gender Gap in Natural Language Processing Research: Disparities in Authorship and Citations ( http://arxiv.org/abs/2005.00962v2 )

ライセンス: Link先を確認
Saif M. Mohammad(参考訳) 性別間の著者や引用の相違は、不利な性別だけでなく、全体としての研究分野にも重大な影響をもたらす可能性がある。 ジェンダーギャップの測定は、それらに対処するための重要なステップである。 本研究では,女性第一著者の割合と自然言語処理における論文に対する引用について検討する(1965年~2019年)。 我々は、既存の手作業による書き手リストと、性別に強く関連付けられたファーストネームを用いて、集計レベル統計を決定する。 最初の著者の約29%が女性であり、最後の著者の約25%が女性であることがわかった。 この割合は2000年代半ばから改善されていない。 また, 経験や研究領域をコントロールしても, 平均的に女性第一著者は男性第一著者より少ないという結果が得られた。 最後に,自動人口分析に関わる倫理的考察について論じる。

Disparities in authorship and citations across gender can have substantial adverse consequences not just on the disadvantaged genders, but also on the field of study as a whole. Measuring gender gaps is a crucial step towards addressing them. In this work, we examine female first author percentages and the citations to their papers in Natural Language Processing (1965 to 2019). We determine aggregate-level statistics using an existing manually curated author--gender list as well as first names strongly associated with a gender. We find that only about 29% of first authors are female and only about 25% of last authors are female. Notably, this percentage has not improved since the mid 2000s. We also show that, on average, female first authors are cited less than male first authors, even when controlling for experience and area of research. Finally, we discuss the ethical considerations involved in automatic demographic analysis.
翻訳日:2022-12-07 06:51:49 公開日:2020-09-03
# NagE: 知識グラフのための非アベリアグループ埋め込み

NagE: Non-Abelian Group Embedding for Knowledge Graphs ( http://arxiv.org/abs/2005.10956v3 )

ライセンス: Link先を確認
Tong Yang, Long Sha, Pengyu Hong(参考訳) 関係知識埋め込み問題に隠れた群代数構造の存在を実証し, 組込みモデルの設計にグループベース埋め込みフレームワークが不可欠であることを示唆した。 我々の理論的解析は、埋め込み問題自体の本質的な性質のみを探求するため、モデル非依存である。 理論解析に動機づけられ, 関係を群要素として埋め込み, 実体を群作用空間内のベクトルとして表現する, 群理論に基づく知識グラフ埋め込みフレームワークを提案した。 我々は2つのインスタンス化例(SO3EとSU2E)に関連する埋め込みモデルを構築するための一般的なレシピを提供する。 これら2つの試験管モデルを用いた実証実験は、ベンチマークデータセット上で最先端の結果を示している。

We demonstrated the existence of a group algebraic structure hidden in relational knowledge embedding problems, which suggests that a group-based embedding framework is essential for designing embedding models. Our theoretical analysis explores merely the intrinsic property of the embedding problem itself hence is model-independent. Motivated by the theoretical analysis, we have proposed a group theory-based knowledge graph embedding framework, in which relations are embedded as group elements, and entities are represented by vectors in group action spaces. We provide a generic recipe to construct embedding models associated with two instantiating examples: SO3E and SU2E, both of which apply a continuous non-Abelian group as the relation embedding. Empirical experiments using these two exampling models have shown state-of-the-art results on benchmark datasets.
翻訳日:2022-11-30 08:40:03 公開日:2020-09-03
# NLPコントリビューション:自然言語処理文学におけるScholarly Contributionsの機械読解のためのアノテーションスキーム

NLPContributions: An Annotation Scheme for Machine Reading of Scholarly Contributions in Natural Language Processing Literature ( http://arxiv.org/abs/2006.12870v3 )

ライセンス: Link先を確認
Jennifer D'Souza and S\"oren Auer(参考訳) 本稿では,自然言語処理(NLP)の記事,特にさまざまな情報抽出タスクにおける機械学習(ML)アプローチについて議論する記事に対する,学術的貢献を捉えるためのアノテーションイニシアチブについて述べる。 5つの情報抽出タスクへの貢献を提示する50 nlp-ml論文のパイロットアノテーション演習に基づくアノテーションタスクを開発した。 1.機械翻訳 2.名前付きエンティティ認識 3.質問への回答 4.関係分類,及び 5. テキスト分類。 本稿では,このパイロットアノテーションフェーズの結果について述べる。 その結果,NLP-MLによる学術研究の貢献を反映した10のコア情報単位が得られた。 これらの情報単位に基づいて開発したアノテーションスキームをNLPContributionsと呼ぶ。 私たちの努力の総体的な目標は次の4つです。 1)NLP-ML研究論文に多かれ少なかれ汎用的な学術的貢献のセマンティック構造化のための主観的述語文の体系的なパターンを見つけること。 2) より大きな注釈付きデータセットの作成において,発見されたパターンを研究貢献の機械読者の訓練に適用する。 3) ユーザフレンドリーな最先端の概要を作成するためのショーケースとして,データセットをOpen Research Knowledge Graph(ORKG)インフラストラクチャに取り込みます。 4) マシンリーダをorkgに統合することにより,各記事のマニュアルキュレーションを支援する。 我々は,NLPコントリビューションの方法論が,そのさらなる洗練と発展に向けて,このトピックについてより広範な議論を巻き起こすことを想定する。 NLPコントリビューション方式に基づく50のNLP-ML学術論文のアノテートデータセットを, https://doi.org/10.25835/00 19761で公開している。

We describe an annotation initiative to capture the scholarly contributions in natural language processing (NLP) articles, particularly, for the articles that discuss machine learning (ML) approaches for various information extraction tasks. We develop the annotation task based on a pilot annotation exercise on 50 NLP-ML scholarly articles presenting contributions to five information extraction tasks 1. machine translation, 2. named entity recognition, 3. question answering, 4. relation classification, and 5. text classification. In this article, we describe the outcomes of this pilot annotation phase. Through the exercise we have obtained an annotation methodology; and found ten core information units that reflect the contribution of the NLP-ML scholarly investigations. The resulting annotation scheme we developed based on these information units is called NLPContributions. The overarching goal of our endeavor is four-fold: 1) to find a systematic set of patterns of subject-predicate-object statements for the semantic structuring of scholarly contributions that are more or less generically applicable for NLP-ML research articles; 2) to apply the discovered patterns in the creation of a larger annotated dataset for training machine readers of research contributions; 3) to ingest the dataset into the Open Research Knowledge Graph (ORKG) infrastructure as a showcase for creating user-friendly state-of-the-art overviews; 4) to integrate the machine readers into the ORKG to assist users in the manual curation of their respective article contributions. We envision that the NLPContributions methodology engenders a wider discussion on the topic toward its further refinement and development. Our pilot annotated dataset of 50 NLP-ML scholarly articles according to the NLPContributions scheme is openly available to the research community at https://doi.org/10.25835/0019761.
翻訳日:2022-11-17 23:38:00 公開日:2020-09-03
# 意味的セグメンテーションのための損失関数の探索

A survey of loss functions for semantic segmentation ( http://arxiv.org/abs/2006.14822v4 )

ライセンス: Link先を確認
Shruti Jadon(参考訳) Image Segmentationは、自動疾患検出から自動運転車まで、幅広い用途があるため、活発な研究分野である。 過去5年間で、バイアスデータやスパースセグメンテーションなど、さまざまなケースで使用される客観的な損失関数について、さまざまな論文がまとめられた。 本稿では,画像分割に広く使われているよく知られた損失関数のいくつかを要約し,その利用がモデルの高速かつより良い収束に役立つ場合をリストアップした。 さらに,新しいlog-cosh dice損失関数を導入し,広く使用される損失関数を備えたnbfsスカルセグメンテーションオープンソースデータセットの性能比較を行った。 また、ある損失関数がすべてのデータセットでうまく機能し、未知のデータ分散シナリオにおいて良いベースライン選択とみなせることを示した。 私たちのコードはGithubで公開されている。

Image Segmentation has been an active field of research as it has a wide range of applications, ranging from automated disease detection to self-driving cars. In the past five years, various papers came up with different objective loss functions used in different cases such as biased data, sparse segmentation, etc. In this paper, we have summarized some of the well-known loss functions widely used for Image Segmentation and listed out the cases where their usage can help in fast and better convergence of a model. Furthermore, we have also introduced a new log-cosh dice loss function and compared its performance on the NBFS skull-segmentation open-source data-set with widely used loss functions. We also showcased that certain loss functions perform well across all data-sets and can be taken as a good baseline choice in unknown data distribution scenarios. Our code is available at Github: https://github.com/shruti-jadon/Semantic-Segmentation-Loss-Functions.
翻訳日:2022-11-16 21:39:25 公開日:2020-09-03
# グラフ畳み込みと繰り返しネットワークを用いた配列誘導タンパク質構造決定

Sequence-guided protein structure determination using graph convolutional and recurrent networks ( http://arxiv.org/abs/2007.06847v3 )

ライセンス: Link先を確認
Po-Nan Li and Saulo H. P. de Oliveira and Soichi Wakatsuki and Henry van den Bedem(参考訳) 単粒子極低温電子顕微鏡(cryo-em)実験は現在、大きなタンパク質とその複合体の高分解能データを日常的に生成している。 低温-EM密度マップに原子モデルを構築することは、特に標的タンパク質の構造が事前に知られていない場合、困難である。 この種のタスクの既存のプロトコルは、しばしば人間の介入に頼り、アウトプットを生成するのに数時間から数日かかることがある。 ここでは,完全にニューラルネットワークに基づく,完全に自動化されたテンプレートフリーなモデル構築手法を提案する。 グラフ畳み込みネットワーク(GCN)を用いて,ロタマー系アミノ酸の集合と候補3次元C$\alpha$位置から埋め込みを生成する。 この埋め込みから、我々は双方向長短期メモリ(LSTM)モジュールを用いて、入力タンパク質配列と整合した候補のアイデンティティと原子位置を順序付けし、ラベル付けし、構造モデルを得る。 本手法は,ヒトの介入を必要とせず,既存の手法のごく一部でcryo-em密度からタンパク質構造を決定する方法である。

Single particle, cryogenic electron microscopy (cryo-EM) experiments now routinely produce high-resolution data for large proteins and their complexes. Building an atomic model into a cryo-EM density map is challenging, particularly when no structure for the target protein is known a priori. Existing protocols for this type of task often rely on significant human intervention and can take hours to many days to produce an output. Here, we present a fully automated, template-free model building approach that is based entirely on neural networks. We use a graph convolutional network (GCN) to generate an embedding from a set of rotamer-based amino acid identities and candidate 3-dimensional C$\alpha$ locations. Starting from this embedding, we use a bidirectional long short-term memory (LSTM) module to order and label the candidate identities and atomic locations consistent with the input protein sequence to obtain a structural model. Our approach paves the way for determining protein structures from cryo-EM densities at a fraction of the time of existing approaches and without the need for human intervention.
翻訳日:2022-11-10 14:17:08 公開日:2020-09-03
# リズムのための単語表現

Word Representation for Rhythms ( http://arxiv.org/abs/2007.10610v4 )

ライセンス: Link先を確認
Tongyu Lu, Lyucheng Yan, Gus Xia(参考訳) 本稿では,リズムパターンに対する単語表現戦略を提案する。 1034個のノッティンガムデータセットを用いて、(制御トークンなしで)450のリズムワード辞書を生成する。 BERTモデルはリズムワードの構文ポテンシャルを探索するために作成される。 我々のモデルは全体の音楽構造を見つけ、異なるメーターをクラスタリングすることができる。 より大規模なスキームでは、言語としての思考は、体系的な考察のために提案される。

This paper proposes a word representation strategy for rhythm patterns. Using 1034 pieces of Nottingham Dataset, a rhythm word dictionary whose size is 450 (without control tokens) is generated. BERT model is created to explore syntactic potentials of rhythm words. Our model is able to find overall music structures and cluster different meters. In a larger scheme, a think mode - music as language - is proposed for systematic considerations.
翻訳日:2022-11-08 04:19:55 公開日:2020-09-03
# オブジェクト認識の逆例:包括的調査

Adversarial Examples on Object Recognition: A Comprehensive Survey ( http://arxiv.org/abs/2008.04094v2 )

ライセンス: Link先を確認
Alex Serban, Erik Poll, Joost Visser(参考訳) 深層ニューラルネットワークは、機械学習研究の最前線にある。 しかし、複雑なタスクで印象的なパフォーマンスを達成しても、非常に敏感になる可能性がある:入力の小さな摂動は、不正確な振る舞いを誘発するのに十分である。 このような摂動(adversarial examples)は、ネットワークの分散ドリフトに対する感受性をテストするために意図的に設計されている。 驚くほど小さいサイズであることを考えると、その存在とどのようにこの現象を緩和できるかについて、幅広い文献が推測している。 本稿では,ニューラルネットワークの安全性,安全性,ロバスト性に対する敵例の影響について述べる。 まず、それらの存在の背後にある仮説、それらの構築や保護に使用される方法、異なる機械学習モデル間で逆の例を転送する能力の導入から始める。 目標は、この成長する研究分野に関する包括的で自己完結した調査を提供することだ。

Deep neural networks are at the forefront of machine learning research. However, despite achieving impressive performance on complex tasks, they can be very sensitive: Small perturbations of inputs can be sufficient to induce incorrect behavior. Such perturbations, called adversarial examples, are intentionally designed to test the network's sensitivity to distribution drifts. Given their surprisingly small size, a wide body of literature conjectures on their existence and how this phenomenon can be mitigated. In this article we discuss the impact of adversarial examples on security, safety, and robustness of neural networks. We start by introducing the hypotheses behind their existence, the methods used to construct or protect against them, and the capacity to transfer adversarial examples between different machine learning models. Altogether, the goal is to provide a comprehensive and self-contained survey of this growing field of research.
翻訳日:2022-11-02 00:54:55 公開日:2020-09-03
# ランク上の上限を持つ頑健な主成分分析のための高速アルゴリズム

Fast algorithms for robust principal component analysis with an upper bound on the rank ( http://arxiv.org/abs/2008.07972v2 )

ライセンス: Link先を確認
Ningyu Sha and Lei Shi and Ming Yan(参考訳) 堅牢な主成分分析(RPCA)は、データマトリックスをローランク部とスパース部に分解する。 RPCAには2種類のアルゴリズムがある。 第1のアルゴリズムは、行列の特異値に対して正規化項を適用して低ランク行列を得る。 しかし、特異値を計算することは大きな行列にとって非常に高価である。 第2のアルゴリズムは、低ランク行列を2つの小さな行列の乗法として置き換える。 特異値分解(SVD)は不要であるため、最初の型よりも高速である。 しかし、低ランク行列の階数が必要であり、妥当な解を得るには正確な階数推定が必要である。 本稿では,両タイプを組み合わせたアルゴリズムを提案する。 提案アルゴリズムでは,小行列上でのランクとSVDの上限を求める。 第一に、小行列でのSVDのコストが無視できるため、最初のタイプよりも高速である。 第二に、正確なランクの代わりにランクの上限が必要となるため、それらは第二の型よりも頑健である。 さらに,アルゴリズムの高速化にgauss-newton法を適用した。 数値実験により提案アルゴリズムの性能が向上した。

The robust principal component analysis (RPCA) decomposes a data matrix into a low-rank part and a sparse part. There are mainly two types of algorithms for RPCA. The first type of algorithm applies regularization terms on the singular values of a matrix to obtain a low-rank matrix. However, calculating singular values can be very expensive for large matrices. The second type of algorithm replaces the low-rank matrix as the multiplication of two small matrices. They are faster than the first type because no singular value decomposition (SVD) is required. However, the rank of the low-rank matrix is required, and an accurate rank estimation is needed to obtain a reasonable solution. In this paper, we propose algorithms that combine both types. Our proposed algorithms require an upper bound of the rank and SVD on small matrices. First, they are faster than the first type because the cost of SVD on small matrices is negligible. Second, they are more robust than the second type because an upper bound of the rank instead of the exact rank is required. Furthermore, we apply the Gauss-Newton method to increase the speed of our algorithms. Numerical experiments show the better performance of our proposed algorithms.
翻訳日:2022-10-27 22:05:26 公開日:2020-09-03
# ニューラルネットワークの不確実性尺度としての勾配

Gradients as a Measure of Uncertainty in Neural Networks ( http://arxiv.org/abs/2008.08030v2 )

ライセンス: Link先を確認
Jinsol Lee and Ghassan AlRegib(参考訳) 現代のニューラルネットワークが驚くほど成功したにもかかわらず、モデルは不慣れな条件で入力に遭遇しても過信されることが知られている。 このような入力を検出することは、モデルがニューラルネットワークの現実世界の応用を危険にさらすようなナイーブな予測をするのを防ぐのに不可欠である。 本稿では,ディープニューラルネットワークにおける不確実性の簡易かつ効果的な尺度を考案する上での課題に対処する。 具体的には,トレーニングモデルの不確実性の定量化のために,バックプロパゲート勾配を利用する。 勾配(gradients)は、モデルが入力を適切に表現するために必要とされる変更量を表しており、それによってモデルが入力に対してどの程度親しみやすく、確かなものであるかについての貴重な洞察を提供する。 本研究では,不慣れな入力を検知するためのモデル不確実性の尺度としての勾配の有効性を示す。 本手法は,分布外検出においてaurocスコアの最大4.8%,破壊的入力検出では35.7%の精度向上を示す。

Despite tremendous success of modern neural networks, they are known to be overconfident even when the model encounters inputs with unfamiliar conditions. Detecting such inputs is vital to preventing models from making naive predictions that may jeopardize real-world applications of neural networks. In this paper, we address the challenging problem of devising a simple yet effective measure of uncertainty in deep neural networks. Specifically, we propose to utilize backpropagated gradients to quantify the uncertainty of trained models. Gradients depict the required amount of change for a model to properly represent given inputs, thus providing a valuable insight into how familiar and certain the model is regarding the inputs. We demonstrate the effectiveness of gradients as a measure of model uncertainty in applications of detecting unfamiliar inputs, including out-of-distribution and corrupted samples. We show that our gradient-based method outperforms state-of-the-art methods by up to 4.8% of AUROC score in out-of-distribution detection and 35.7% in corrupted input detection.
翻訳日:2022-10-27 21:48:42 公開日:2020-09-03
# オンラインクロスネットワークレコメンデーションのためのLSTMネットワーク

LSTM Networks for Online Cross-Network Recommendations ( http://arxiv.org/abs/2008.10849v2 )

ライセンス: Link先を確認
Dilruk Perera and Roger Zimmermann(参考訳) クロスネットワークレコメンデータシステムは、複数のソースネットワークからの補助情報を使用して、総合的なユーザプロファイルを作成し、ターゲットネットワークにおけるレコメンデーションを改善する。 しかし、既存のクロスネットワークソリューションにおいて、全体的なレコメンデータパフォーマンスを低下させる2つの大きな制限が見つかる。 既存のモデル(1)は、ユーザインタラクションにおける複雑な非線形関係をキャプチャすることができず、(2)はオフライン設定のために設計されている。 この問題を軽減するために,多層長短期記憶(lstm)ネットワークを用いたオンラインソリューションを提案する。 提案モデルには標準LSTMの3つの主要な拡張が含まれている。 第二に、データの分散を緩和する高次の相互作用層。 第3に、LSTMセルゲートはユーザ間の不規則な時間間隔をキャプチャする。 私たちは、TwitterとGoogle Plusの補助情報を使って、YouTubeのレコメンデーションを改善するソリューションを説明します。 広範な実験により,提案モデルが精度,多様性,新規性において最先端を一貫して上回っていることが示された。

Cross-network recommender systems use auxiliary information from multiple source networks to create holistic user profiles and improve recommendations in a target network. However, we find two major limitations in existing cross-network solutions that reduce overall recommender performance. Existing models (1) fail to capture complex non-linear relationships in user interactions, and (2) are designed for offline settings hence, not updated online with incoming interactions to capture the dynamics in the recommender environment. We propose a novel multi-layered Long Short-Term Memory (LSTM) network based online solution to mitigate these issues. The proposed model contains three main extensions to the standard LSTM: First, an attention gated mechanism to capture long-term user preference changes. Second, a higher order interaction layer to alleviate data sparsity. Third, time aware LSTM cell gates to capture irregular time intervals between user interactions. We illustrate our solution using auxiliary information from Twitter and Google Plus to improve recommendations on YouTube. Extensive experiments show that the proposed model consistently outperforms state-of-the-art in terms of accuracy, diversity and novelty.
翻訳日:2022-10-25 02:48:48 公開日:2020-09-03
# 形状と空間情報を融合したランダムスタイル転送型ドメイン一般化ネットワーク

Random Style Transfer based Domain Generalization Networks Integrating Shape and Spatial Information ( http://arxiv.org/abs/2008.12205v2 )

ライセンス: Link先を確認
Lei Li, Veronika A. Zimmer, Wangbin Ding, Fuping Wu, Liqin Huang, Julia A. Schnabel, Xiahai Zhuang(参考訳) 深層学習(DL)に基づくモデルは,医用画像セグメンテーションにおいて優れた性能を示した。 しかし、既知のデータセットでトレーニングされたモデルは、異なるセンター、ベンダー、疾病集団から収集された見えないデータセットで実行されると、しばしば失敗する。 本稿では,マルチベンダと中心心像のセグメンテーションにおける領域一般化問題に取り組むためのランダムスタイル転送ネットワークを提案する。 スタイル転送は、より広い分布/不均一性、すなわちドメイン拡張のトレーニングデータを生成するために使用される。 対象ドメインが未知である可能性があるため、未知ドメインのドメインシフトをシミュレートするために、スタイル転送段階でターゲットモダリティのモダリティベクトルをランダムに生成する。 このモデルは、教師なしセグメンテーションと教師なしスタイル翻訳目標を同時に最適化することにより、半教師付き方法で訓練することができる。 また、2つの正規化項を導入することにより、対象の空間情報と形状を組み込む。 提案フレームワークは,m\&ms challenge2020から40項目を対象に評価を行い,未知のベンダーやセンターからのデータセグメンテーションにおいて有望な性能を得た。

Deep learning (DL)-based models have demonstrated good performance in medical image segmentation. However, the models trained on a known dataset often fail when performed on an unseen dataset collected from different centers, vendors and disease populations. In this work, we present a random style transfer network to tackle the domain generalization problem for multi-vendor and center cardiac image segmentation. Style transfer is used to generate training data with a wider distribution/ heterogeneity, namely domain augmentation. As the target domain could be unknown, we randomly generate a modality vector for the target modality in the style transfer stage, to simulate the domain shift for unknown domains. The model can be trained in a semi-supervised manner by simultaneously optimizing a supervised segmentation and an unsupervised style translation objective. Besides, the framework incorporates the spatial information and shape prior of the target by introducing two regularization terms. We evaluated the proposed framework on 40 subjects from the M\&Ms challenge2020, and obtained promising performance in the segmentation for data from unknown vendors and centers.
翻訳日:2022-10-24 08:29:49 公開日:2020-09-03
# GREEK-BERT:ギリシャ人がセサミストリートを訪れる

GREEK-BERT: The Greeks visiting Sesame Street ( http://arxiv.org/abs/2008.12014v2 )

ライセンス: Link先を確認
John Koutsikakis, Ilias Chalkidis, Prodromos Malakasiotis and Ion Androutsopoulos(参考訳) BERTやその変種のようなトランスフォーマーベースの言語モデルは、一般的なベンチマークデータセット(GLUE、SQUAD、RACEなど)上のいくつかの下流自然言語処理(NLP)タスクで最先端のパフォーマンスを達成した。 しかし、これらのモデルは主に資源豊富な英語に適用されている。 本稿では,現代ギリシア語のための単言語BERTに基づく言語モデルGREEK-BERTを提案する。 3つのnlpタスク(part-of-speech tagging、名前付きエンティティ認識、自然言語推論)でパフォーマンスを評価し、最先端のパフォーマンスを得る。 興味深いことに、GREEK-BERTベンチマークの2つのベンチマークでは、2つの多言語トランスフォーマーベースモデル(M-BERT、XLM-R)と、事前訓練された単語埋め込みで動作するより浅い神経ベースラインを、大きなマージン(5%-10%)で上回っている。 最も重要なことは、GREEK-BERTとトレーニングコードの両方を公開し、下流のNLPタスクに対してGREEK-BERTをどのように微調整できるかを示すコードも公開しています。 これらの資源は、現代ギリシャのNLP研究と応用を促進すると期待している。

Transformer-based language models, such as BERT and its variants, have achieved state-of-the-art performance in several downstream natural language processing (NLP) tasks on generic benchmark datasets (e.g., GLUE, SQUAD, RACE). However, these models have mostly been applied to the resource-rich English language. In this paper, we present GREEK-BERT, a monolingual BERT-based language model for modern Greek. We evaluate its performance in three NLP tasks, i.e., part-of-speech tagging, named entity recognition, and natural language inference, obtaining state-of-the-art performance. Interestingly, in two of the benchmarks GREEK-BERT outperforms two multilingual Transformer-based models (M-BERT, XLM-R), as well as shallower neural baselines operating on pre-trained word embeddings, by a large margin (5%-10%). Most importantly, we make both GREEK-BERT and our training code publicly available, along with code illustrating how GREEK-BERT can be fine-tuned for downstream NLP tasks. We expect these resources to boost NLP research and applications for modern Greek.
翻訳日:2022-10-24 07:43:17 公開日:2020-09-03
# Pixel-Face: 3D顔再構成のための大規模高解像度ベンチマーク

Pixel-Face: A Large-Scale, High-Resolution Benchmark for 3D Face Reconstruction ( http://arxiv.org/abs/2008.12444v3 )

ライセンス: Link先を確認
Jiangjing Lyu, Xiaobo Li, Xiangyu Zhu, Cheng Cheng(参考訳) 3D顔の再構成は、堅牢な顔分析や拡張現実といった多くの応用を促進するための基本的なタスクである。 これはまた、現在のディープラーニングベースのメソッドを推進できる高品質なデータセットがないため、難しいタスクでもある。 しかし、既存のデータセットは量、現実性、多様性に制限がある。 これらのハードルを回避するために、大規模で高解像度で多様な3D顔データセットであるPixel-Faceを紹介します。 具体的には、pixel-faceは18歳から80歳までの855人の被験者を含んでいる。 各被験者には、さまざまな表現を持つ20以上のサンプルがある。 各サンプルは高解像度のマルチビューRGB画像と様々な表現を持つ3Dメッシュで構成されている。 さらに,各データに対して正確なランドマークアノテーションと3次元登録結果を収集する。 ピクセルフェイスの利点を示すために、3d morphable model(3dmm)を収集データを用いてpixel-3dmに再パラメータ化する。 得られたPixel-3DMは,幅広い顔形状や表情をモデル化する上で優れていることを示す。 また,既存の3次元顔復元手法を慎重にベンチマークした。 さらに、pixel-faceは効果的なトレーニングソースとして機能する。 現在の顔再構成モデルの性能は、新たに収集したデータを用いて微調整された後、既存のベンチマークとpixel-faceの両方で大幅に向上する。 広範な実験により、pixel-3dmの有効性とpixel-faceの有用性が実証された。

3D face reconstruction is a fundamental task that can facilitate numerous applications such as robust facial analysis and augmented reality. It is also a challenging task due to the lack of high-quality datasets that can fuel current deep learning-based methods. However, existing datasets are limited in quantity, realisticity and diversity. To circumvent these hurdles, we introduce Pixel-Face, a large-scale, high-resolution and diverse 3D face dataset with massive annotations. Specifically, Pixel-Face contains 855 subjects aging from 18 to 80. Each subject has more than 20 samples with various expressions. Each sample is composed of high-resolution multi-view RGB images and 3D meshes with various expressions. Moreover, we collect precise landmarks annotation and 3D registration result for each data. To demonstrate the advantages of Pixel-Face, we re-parameterize the 3D Morphable Model (3DMM) into Pixel-3DM using the collected data. We show that the obtained Pixel-3DM is better in modeling a wide range of face shapes and expressions. We also carefully benchmark existing 3D face reconstruction methods on our dataset. Moreover, Pixel-Face serves as an effective training source. We observe that the performance of current face reconstruction models significantly improves both on existing benchmarks and Pixel-Face after being fine-tuned using our newly collected data. Extensive experiments demonstrate the effectiveness of Pixel-3DM and the usefulness of Pixel-Face.
翻訳日:2022-10-24 02:15:44 公開日:2020-09-03
# 深層学習によるビデオからのフルフィールドサブピクセル構造変位の抽出

Extracting full-field subpixel structural displacements from videos via deep learning ( http://arxiv.org/abs/2008.13715v2 )

ライセンス: Link先を確認
Lele Luan and Jingwei Zheng and Yongchao Yang and Ming L. Wang and Hao Sun(参考訳) 本稿では,ビデオからのフルフィールドサブピクセル構造変位のリアルタイム抽出を可能にする,畳み込みニューラルネットワーク(CNN)に基づくディープラーニングフレームワークを開発する。 特に、2つの新しいCNNアーキテクチャは、動的構造の単一実験室記録高速ビデオから位相ベースの動き抽出法によって生成されたデータセットに基づいて設計、訓練されている。 テクスチャコントラストが十分である地域でのみ変位が信頼できるため、テクスチャマスクによって引き起こされる動きのスパース性は、ネットワークアーキテクチャ設計と損失関数定義によって考慮される。 その結果、フルでスパースな動き場を監督することで、トレーニングされたネットワークは、十分なテクスチャコントラストとサブピクセルの動きを持つピクセルを識別できることがわかった。 トレーニングされたネットワークの性能は、他の構造の様々なビデオでテストされ、フルフィールドの動き(例えば、変位時間履歴)を抽出し、トレーニングされたネットワークが十分なテクスチャコントラストを持つ画素に対してフルフィールドの微妙な変位を正確に抽出する一般化性を示す。

This paper develops a deep learning framework based on convolutional neural networks (CNNs) that enable real-time extraction of full-field subpixel structural displacements from videos. In particular, two new CNN architectures are designed and trained on a dataset generated by the phase-based motion extraction method from a single lab-recorded high-speed video of a dynamic structure. As displacement is only reliable in the regions with sufficient texture contrast, the sparsity of motion field induced by the texture mask is considered via the network architecture design and loss function definition. Results show that, with the supervision of full and sparse motion field, the trained network is capable of identifying the pixels with sufficient texture contrast as well as their subpixel motions. The performance of the trained networks is tested on various videos of other structures to extract the full-field motion (e.g., displacement time histories), which indicates that the trained networks have generalizability to accurately extract full-field subtle displacements for pixels with sufficient texture contrast.
翻訳日:2022-10-23 07:01:52 公開日:2020-09-03
# 変分推論のためのロバスト・高精度確率最適化

Robust, Accurate Stochastic Optimization for Variational Inference ( http://arxiv.org/abs/2009.00666v2 )

ライセンス: Link先を確認
Akash Kumar Dhaka, Alejandro Catalina, Michael Riis Andersen, M{\aa}ns Magnusson, Jonathan H. Huggins, Aki Vehtari(参考訳) 確率最適化法を用いて変分後続近似を適合させる問題を考える。 これらの近似の性能は、(1)変動族が真の後続分布とどの程度うまく一致しているか、(2)ばらつきの選択、(3)変動目的の最適化に依存する。 直近の後方が仮定された変分族に属する場合であっても、問題次元が適度に大きい場合、一般的な確率的最適化手法は変分近似を低くすることを示した。 また、これらの手法は様々なモデルタイプで堅牢ではないことも示しています。 これらの知見に動機づけられ,基礎となる最適化アルゴリズムをマルコフ連鎖生成と見なすことにより,より堅牢で正確な確率的最適化フレームワークを開発した。 このアプローチは理論的に動機づけられ、収束の診断と、目的関数のノイズ評価にロバストな新しい停止規則を含んでいる。 提案手法は,確率的最適化の失敗や不正確な変分近似を自動的に検出し,多種多様なモデルに対して有効であることを示す。

We consider the problem of fitting variational posterior approximations using stochastic optimization methods. The performance of these approximations depends on (1) how well the variational family matches the true posterior distribution,(2) the choice of divergence, and (3) the optimization of the variational objective. We show that even in the best-case scenario when the exact posterior belongs to the assumed variational family, common stochastic optimization methods lead to poor variational approximations if the problem dimension is moderately large. We also demonstrate that these methods are not robust across diverse model types. Motivated by these findings, we develop a more robust and accurate stochastic optimization framework by viewing the underlying optimization algorithm as producing a Markov chain. Our approach is theoretically motivated and includes a diagnostic for convergence and a novel stopping rule, both of which are robust to noisy evaluations of the objective function. We show empirically that the proposed framework works well on a diverse set of models: it can automatically detect stochastic optimization failure or inaccurate variational approximation
翻訳日:2022-10-23 00:51:46 公開日:2020-09-03
# 本当は良くないの? 乱用言語からの著者プロファイルの予測

Too good to be true? Predicting author profiles from abusive language ( http://arxiv.org/abs/2009.01126v2 )

ライセンス: Link先を確認
Isabelle van der Vegt, Bennett Kleinberg, Paul Gill(参考訳) オンラインの脅威や悪用に関する問題は、著者のプロファイリングによって悪用源をよりよく理解したり特定したりする計算手法によって軽減される可能性がある。 しかし、乱用言語は特定の言語領域を構成しており、テキスト作者の性格、年齢、性別によって違いが生じるかどうかはまだテストされていない。 本研究は,著者層と虐待と正常言語の間の統計的関係を調査し,性格・年齢・性別の予測実験を行う。 著者の特徴と言語使用の統計的関係は確立されたが,これらのパターンは高い予測性能に変換されなかった。 性格特性は実際の価値の15%以内に予測され、年齢は10年の誤差で予測され、性別は70%のケースで正しく分類された。 これらの結果は、著者のプロファイリングに関するこれまでの研究と比較すると貧弱であり、虐待的言語と脅威評価の文脈でこれを適用することに注意を促している。

The problem of online threats and abuse could potentially be mitigated with a computational approach, where sources of abuse are better understood or identified through author profiling. However, abusive language constitutes a specific domain of language for which it has not yet been tested whether differences emerge based on a text author's personality, age, or gender. This study examines statistical relationships between author demographics and abusive vs normal language, and performs prediction experiments for personality, age, and gender. Although some statistical relationships were established between author characteristics and language use, these patterns did not translate to high prediction performance. Personality traits were predicted within 15% of their actual value, age was predicted with an error margin of 10 years, and gender was classified correctly in 70% of the cases. These results are poor when compared to previous research on author profiling, therefore we urge caution in applying this within the context of abusive language and threat assessment.
翻訳日:2022-10-22 19:00:54 公開日:2020-09-03
# Select-ProtoNet: Few-Shot病サブタイプ予測のための学習

Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction ( http://arxiv.org/abs/2009.00792v2 )

ライセンス: Link先を確認
Ziyi Yang, Jun Shu, Yong Liang, Deyu Meng and Zongben Xu(参考訳) 現在の機械学習は、コンピュータビジョンやその他の多くの分野において、大量の高品質のトレーニングサンプルによる大きな進歩を遂げているが、ゲノムデータ解析ではあまりうまく機能しない。 本研究は,小データのトレーニングを通じて,特定の個人に対する治療決定を導出できる類似患者のサブグループを同定する,数発の疾患のサブタイプ予測問題に焦点を当てた。 実際、医師と臨床医は常に、いくつかの相互関連臨床変数を同時に研究することでこの問題に対処している。 このような臨床観をシミュレートし, メタラーニング手法を導入して, 相互関連臨床課題から共通の経験や知識を抽出し, 新たな課題への対処に役立てることができる新しいモデルの構築を試みる。 我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。 画像データと比較して遺伝子発現データが特に高次元・高ノイズ特性を有することを観察し,これらの問題に対処するために2つのモジュールを付加した新たな拡張を提案する。 具体的には, 疾患関連遺伝子を自動抽出する機能選択層を付加し, ノイズデータを適応的に除去するサンプル重み付け戦略を組み込むとともに, 限られた数のトレーニング例から学習し, うまく一般化することができる。 シミュレーションおよび実際の遺伝子発現データ実験は、疾患のサブタイプを予測し、潜在的な疾患関連遺伝子を同定するための提案手法の優位性を裏付けるものである。

Current machine learning has made great progress on computer vision and many other fields attributed to the large amount of high-quality training samples, while it does not work very well on genomic data analysis, since they are notoriously known as small data. In our work, we focus on few-shot disease subtype prediction problem, identifying subgroups of similar patients that can guide treatment decisions for a specific individual through training on small data. In fact, doctors and clinicians always address this problem by studying several interrelated clinical variables simultaneously. We attempt to simulate such clinical perspective, and introduce meta learning techniques to develop a new model, which can extract the common experience or knowledge from interrelated clinical tasks and transfer it to help address new tasks. Our new model is built upon a carefully designed meta-learner, called Prototypical Network, that is a simple yet effective meta learning machine for few-shot image classification. Observing that gene expression data have specifically high dimensionality and high noise properties compared with image data, we proposed a new extension of it by appending two modules to address these issues. Concretely, we append a feature selection layer to automatically filter out the disease-irrelated genes and incorporate a sample reweighting strategy to adaptively remove noisy data, and meanwhile the extended model is capable of learning from a limited number of training examples and generalize well. Simulations and real gene expression data experiments substantiate the superiority of the proposed method for predicting the subtypes of disease and identifying potential disease-related genes.
翻訳日:2022-10-22 18:45:48 公開日:2020-09-03
# 大規模データセットに基づく中国の実践的依存パーザ

A Practical Chinese Dependency Parser Based on A Large-scale Dataset ( http://arxiv.org/abs/2009.00901v2 )

ライセンス: Link先を確認
Shuai Zhang, Lijie Wang, Ke Sun, Xinyan Xiao(参考訳) 依存性解析は自然言語処理タスクであり、その出力は様々な下流タスクに不可欠である。 近年、ニューラルネットワークに基づく(NNベースの)依存性解析は大きな進歩を遂げ、最先端の結果を得た。 誰もが知っているように、nnベースのアプローチには大量のラベル付きトレーニングデータが必要です。 したがって、産業指向の依存性パーサツールはほとんど公開されていない。 本稿では,baidu chinese treebank(ductb)と呼ばれる大規模手動ラベル付きデータセット上でトレーニングされた,新しい中国語依存性パーサであるbaidu dependency parser(ddparser)を提案する。 ductbは、検索ログ、中国語ニュースワイヤ、フォーラムのさまざまな談話、会話プログラムなど、複数のソースから100万の注釈付き文からなる。 DDParserは、中国のデータセットの特徴に合わせてグラフベースのバイナリパーサに拡張される。 トレーニングセットと同分布の標準テストセットと、他のソースからサンプリングされたランダムテストセット、およびラベル付きアタッチメントスコア(las)はそれぞれ92.9%と86.9%である。 DDParserは最先端の結果を達成し、https://github.com/baidu/DDParser.comでリリースされる。

Dependency parsing is a longstanding natural language processing task, with its outputs crucial to various downstream tasks. Recently, neural network based (NN-based) dependency parsing has achieved significant progress and obtained the state-of-the-art results. As we all know, NN-based approaches require massive amounts of labeled training data, which is very expensive because it requires human annotation by experts. Thus few industrial-oriented dependency parser tools are publicly available. In this report, we present Baidu Dependency Parser (DDParser), a new Chinese dependency parser trained on a large-scale manually labeled dataset called Baidu Chinese Treebank (DuCTB). DuCTB consists of about one million annotated sentences from multiple sources including search logs, Chinese newswire, various forum discourses, and conversation programs. DDParser is extended on the graph-based biaffine parser to accommodate to the characteristics of Chinese dataset. We conduct experiments on two test sets: the standard test set with the same distribution as the training set and the random test set sampled from other sources, and the labeled attachment scores (LAS) of them are 92.9% and 86.9% respectively. DDParser achieves the state-of-the-art results, and is released at https://github.com/baidu/DDParser.
翻訳日:2022-10-22 18:25:18 公開日:2020-09-03
# cnn型物体検出器のfpga設計における混合精度データフローの層特異的最適化

Layer-specific Optimization for Mixed Data Flow with Mixed Precision in FPGA Design for CNN-based Object Detectors ( http://arxiv.org/abs/2009.01588v1 )

ライセンス: Link先を確認
Duy Thanh Nguyen, Hyun Kim, and Hyuk-Jae Lee(参考訳) 畳み込みニューラルネットワーク(CNN)は、計算集約と頻繁なメモリアクセスの両方を必要とするため、処理速度が低く、消費電力も大きい。 cnnの異なる層の特徴はしばしば異なるが、以前のハードウェア設計では共通の最適化方式が採用されていた。 本稿では,異なる層に最適化された異なる組織を用いる層特異的設計を提案する。 提案手法は層特異的混合データフローと層特異的混合精度の2つの層特異的最適化を用いる。 混合データフローは、FPGAデバイスの最小のオンチップメモリ(BRAM)リソースを必要としながら、オフチップアクセスを最小限にすることを目的としている。 混合精度量子化は、ロスレス精度とアグレッシブモデル圧縮の両方を達成し、さらにオフチップアクセスを減少させる。 ベイズ最適化手法は各層に最適な間隔を選択するために用いられ、精度と圧縮の最良のトレードオフを実現する。 このミキシング方式により、FPGAのBRAMにネットワークモデル全体を格納し、オフチップアクセスを積極的に低減し、大幅な性能向上を実現する。 モデルサイズは、VOC、COCO、ImageNetデータセットの精度の低下が無視できる完全精度ネットワークと比較して22.66-28.93倍に縮小される。 さらに、混合データフローと混合精度の組み合わせは、スループット、オフチップアクセス、オンチップメモリ要求の両方において、以前の作業を大きく上回っている。

Convolutional neural networks (CNNs) require both intensive computation and frequent memory access, which lead to a low processing speed and large power dissipation. Although the characteristics of the different layers in a CNN are frequently quite different, previous hardware designs have employed common optimization schemes for them. This paper proposes a layer-specific design that employs different organizations that are optimized for the different layers. The proposed design employs two layer-specific optimizations: layer-specific mixed data flow and layer-specific mixed precision. The mixed data flow aims to minimize the off-chip access while demanding a minimal on-chip memory (BRAM) resource of an FPGA device. The mixed precision quantization is to achieve both a lossless accuracy and an aggressive model compression, thereby further reducing the off-chip access. A Bayesian optimization approach is used to select the best sparsity for each layer, achieving the best trade-off between the accuracy and compression. This mixing scheme allows the entire network model to be stored in BRAMs of the FPGA to aggressively reduce the off-chip access, and thereby achieves a significant performance enhancement. The model size is reduced by 22.66-28.93 times compared to that in a full-precision network with a negligible degradation of accuracy on VOC, COCO, and ImageNet datasets. Furthermore, the combination of mixed dataflow and mixed precision significantly outperforms the previous works in terms of both throughput, off-chip access, and on-chip memory requirement.
翻訳日:2022-10-22 08:18:15 公開日:2020-09-03
# 平面LIDARと単眼カメラの誘導核融合による深度補正

Depth Completion via Inductive Fusion of Planar LIDAR and Monocular Camera ( http://arxiv.org/abs/2009.01875v1 )

ライセンス: Link先を確認
Chen Fu, Chiyu Dong, Christoph Mertz and John M. Dolan(参考訳) 現代の高精細化 LIDAR は商用の自動運転車や小型屋内ロボットに高価である。 この問題に対する安価な解決策は、同様のレベルの知覚能力を提供するために、平面LIDARとRGB画像の融合である。 最先端の手法は、限られたセンサー入力から深度情報を予測するためのアプローチを提供するが、それらは通常、エンドツーエンドの融合アーキテクチャを通して、スパースLIDAR特徴と密度の高いRGB特徴の単純な結合である。 本稿では,確率モデルにインスパイアされたセンサの様々な特性をよりよく融合させるインダクティブ・レイトフュージョン・ブロックを提案する。 提案した実証・集約ネットワークは,混合コンテキストと深度の特徴を予測ネットワークに伝達し,深度完了の事前知識として機能する。 この遅延融合ブロックは、密集したコンテキスト特徴を用いて、スパース深度特徴によるデモに基づく深度予測を導く。 提案手法は,NYUDepthV2やKITTIを含むベンチマーク深度補完データセットの評価に加えて,シミュレーションされた平面LIDARデータセット上でも検証を行う。 本手法は,従来のベンチマークデータセットと3次元密度のシミュレーションデータセットと比較して有望な結果を示す。

Modern high-definition LIDAR is expensive for commercial autonomous driving vehicles and small indoor robots. An affordable solution to this problem is fusion of planar LIDAR with RGB images to provide a similar level of perception capability. Even though state-of-the-art methods provide approaches to predict depth information from limited sensor input, they are usually a simple concatenation of sparse LIDAR features and dense RGB features through an end-to-end fusion architecture. In this paper, we introduce an inductive late-fusion block which better fuses different sensor modalities inspired by a probability model. The proposed demonstration and aggregation network propagates the mixed context and depth features to the prediction network and serves as a prior knowledge of the depth completion. This late-fusion block uses the dense context features to guide the depth prediction based on demonstrations by sparse depth features. In addition to evaluating the proposed method on benchmark depth completion datasets including NYUDepthV2 and KITTI, we also test the proposed method on a simulated planar LIDAR dataset. Our method shows promising results compared to previous approaches on both the benchmark datasets and simulated dataset with various 3D densities.
翻訳日:2022-10-22 08:17:49 公開日:2020-09-03
# P6: Visual Analyticsで機械学習を統合する宣言型言語

P6: A Declarative Language for Integrating Machine Learning in Visual Analytics ( http://arxiv.org/abs/2009.01399v1 )

ライセンス: Link先を確認
Jianping Kelvin Li and Kwan-Liu Ma(参考訳) 本稿では、機械学習とインタラクティブな視覚化手法の特定と統合をサポートすることにより、高性能なビジュアル分析システムを構築するための宣言型言語p6を提案する。 機械学習と人工知能に基づくデータ分析手法が進歩を続ける中、視覚分析ソリューションはこれらの手法を利用して、大規模で複雑なデータをうまく活用することができる。 しかし,インタラクティブなビジュアル解析と機械学習手法の統合は困難である。 既存の宣言型プログラミングライブラリと視覚化用のツールキットには、結合機械学習メソッドのサポートがない。 ビジュアル分析のための宣言型言語を提供することで、P6はより多くの開発者が、データ分析と問題解決のための機械学習と視覚化メソッドを組み合わせたビジュアル分析アプリケーションを作成することができる。 様々なサンプルアプリケーションを通じて、p6の機能を実証し、宣言的仕様を使ってビジュアル分析システムを構築する利点を示す。 また、宣言的視覚分析研究の機会と課題を特定し、議論する。

We present P6, a declarative language for building high performance visual analytics systems through its support for specifying and integrating machine learning and interactive visualization methods. As data analysis methods based on machine learning and artificial intelligence continue to advance, a visual analytics solution can leverage these methods for better exploiting large and complex data. However, integrating machine learning methods with interactive visual analysis is challenging. Existing declarative programming libraries and toolkits for visualization lack support for coupling machine learning methods. By providing a declarative language for visual analytics, P6 can empower more developers to create visual analytics applications that combine machine learning and visualization methods for data analysis and problem solving. Through a variety of example applications, we demonstrate P6's capabilities and show the benefits of using declarative specifications to build visual analytics systems. We also identify and discuss the research opportunities and challenges for declarative visual analytics.
翻訳日:2022-10-22 08:17:27 公開日:2020-09-03
# 非線形力学の伝達学習と流体乱流への応用

Transfer learning for nonlinear dynamics and its application to fluid turbulence ( http://arxiv.org/abs/2009.01407v1 )

ライセンス: Link先を確認
Masanobu Inubushi and Susumu Goto(参考訳) 本稿では,少量のデータを利用してカオス力学の効率的な予測を可能にする非線形力学の伝達学習を提案する。 ローレンツカオスでは、転送速度を最適化することにより、従来の手法よりも精度の高い推定を桁数で達成する。 さらに、驚くほど少量の学習がナヴィエ・ストークス乱流のエネルギー散逸率を推測するのに十分である、なぜなら、乱流の小さな普遍性のおかげで、レイノルズ数以下の乱流データから得られた知識を大量に伝達できるからである。

We introduce transfer learning for nonlinear dynamics, which enables efficient predictions of chaotic dynamics by utilizing a small amount of data. For the Lorenz chaos, by optimizing the transfer rate, we accomplish more accurate inference than the conventional method by an order of magnitude. Moreover, a surprisingly small amount of learning is enough to infer the energy dissipation rate of the Navier-Stokes turbulence because we can, thanks to the small-scale universality of turbulence, transfer a large amount of the knowledge learned from turbulence data at lower Reynolds number.
翻訳日:2022-10-22 08:12:34 公開日:2020-09-03
# DCTRGAN:再重み付けによる生成モデルの精度向上

DCTRGAN: Improving the Precision of Generative Models with Reweighting ( http://arxiv.org/abs/2009.03796v1 )

ライセンス: Link先を確認
Sascha Diefenbacher, Engin Eren, Gregor Kasieczka, Anatolii Korol, Benjamin Nachman, and David Shih(参考訳) ディープラーニングの大きな進歩は、ジェネレーティブ・アドバーサリアン・ネットワーク(gans)のようなニューラルネットワークベースの生成モデルがより広く使われ、正確になった。 本稿では,重み付けと重み付けの分類(classification for tuning and reweighting, dctr)を用いて,深層ニューラルネットワークを基盤とした,深層生成モデルに対するポストホック補正を提案する。 この補正は、シミュレーションから予測を行う際に生成された例に適用できる再重み付け関数の形式を取る。 本稿では, 標準マルチモーダル確率密度をトレーニングしたGANと, 高エネルギー物理からのカロリーメータシミュレーションを用いて, この手法について述べる。 重み付き GAN の例は, 統計的パワーに大きな損失を伴わずに, 生成したサンプルの精度を著しく向上することを示した。 このアプローチはどんな生成モデルにも適用でき、高エネルギー物理学の応用などには有望な改良法である。

Significant advances in deep learning have led to more widely used and precise neural network-based generative models such as Generative Adversarial Networks (GANs). We introduce a post-hoc correction to deep generative models to further improve their fidelity, based on the Deep neural networks using the Classification for Tuning and Reweighting (DCTR) protocol. The correction takes the form of a reweighting function that can be applied to generated examples when making predictions from the simulation. We illustrate this approach using GANs trained on standard multimodal probability densities as well as calorimeter simulations from high energy physics. We show that the weighted GAN examples significantly improve the accuracy of the generated samples without a large loss in statistical power. This approach could be applied to any generative model and is a promising refinement method for high energy physics applications and beyond.
翻訳日:2022-10-22 08:12:24 公開日:2020-09-03
# FPGAを用いたオンライン決定木学習の効率的かつスケーラブルな高速化に向けて

Towards Efficient and Scalable Acceleration of Online Decision Tree Learning on FPGA ( http://arxiv.org/abs/2009.01431v1 )

ライセンス: Link先を確認
Zhe Lin, Sharad Sinha, Wei Zhang(参考訳) 決定木(decision tree)は、さまざまなアプリケーションシナリオで一般的に使用される機械学習モデルである。 ビッグデータの時代において、従来の決定木誘導アルゴリズムは、厳密なデータストレージ要件のため、大規模データセットの学習には適していない。 オンライン決定木学習アルゴリズムは、入ってくるサンプルとの同時トレーニングと推論結果の提供により、この問題に対処するために考案された。 しかし、最新のオンラインツリー学習アルゴリズムでさえも、高いメモリ使用率と高い計算強度と依存性と長いレイテンシに苦しむため、ハードウェアでの実装は困難である。 これらの課題を克服するため,我々は,最先端のオンライン学習モデルの1つであるhoeffding treeの誘導を改善するために,quantileベースの新しいアルゴリズムを導入する。 提案アルゴリズムは,高一般化能力を維持しつつ,メモリ需要と計算需要の両方の観点から軽量である。 提案アルゴリズム専用の最適化手法をハードウェアの観点から検討し, 粗粒度, 微細粒度並列性, 動的およびメモリベースのリソース共有, データ転送によるパイプライン化などを検討した。 さらに,フィールドプログラマブルゲートアレイ(FPGA)上に,システムレベルの最適化手法を用いた高性能,ハードウェア効率,スケーラブルなオンライン決定木学習システムを提案する。 実験の結果,提案アルゴリズムは最先端のHoeffding木学習法より優れており,推定精度は0.05%から12.3%向上した。 FPGA上の完全学習システムの実際の実装は、最先端の設計よりも実行時間の384倍から1581倍の高速化を示している。

Decision trees are machine learning models commonly used in various application scenarios. In the era of big data, traditional decision tree induction algorithms are not suitable for learning large-scale datasets due to their stringent data storage requirement. Online decision tree learning algorithms have been devised to tackle this problem by concurrently training with incoming samples and providing inference results. However, even the most up-to-date online tree learning algorithms still suffer from either high memory usage or high computational intensity with dependency and long latency, making them challenging to implement in hardware. To overcome these difficulties, we introduce a new quantile-based algorithm to improve the induction of the Hoeffding tree, one of the state-of-the-art online learning models. The proposed algorithm is light-weight in terms of both memory and computational demand, while still maintaining high generalization ability. A series of optimization techniques dedicated to the proposed algorithm have been investigated from the hardware perspective, including coarse-grained and fine-grained parallelism, dynamic and memory-based resource sharing, pipelining with data forwarding. We further present a high-performance, hardware-efficient and scalable online decision tree learning system on a field-programmable gate array (FPGA) with system-level optimization techniques. Experimental results show that our proposed algorithm outperforms the state-of-the-art Hoeffding tree learning method, leading to 0.05% to 12.3% improvement in inference accuracy. Real implementation of the complete learning system on the FPGA demonstrates a 384x to 1581x speedup in execution time over the state-of-the-art design.
翻訳日:2022-10-22 08:11:55 公開日:2020-09-03
# FPGA動的電力のその場モニタリングのためのアンサンブル学習手法

An Ensemble Learning Approach for In-situ Monitoring of FPGA Dynamic Power ( http://arxiv.org/abs/2009.01432v1 )

ライセンス: Link先を確認
Zhe Lin, Sharad Sinha, Wei Zhang(参考訳) フィールドプログラミング可能なゲートアレイが重要なアプリケーション領域で普及するにつれて、その消費電力は高い関心事となる。 本稿では,新しい電力管理技術をサポートするために,FPGAの実行時の動的パワーを微細な時間スケールで正確に推定できる電力監視方式を提案し,評価する。 特に,複数の決定木に基づくベースラーナに分解可能な,新規で特殊なアンサンブルモデルについて述べる。 モデル合成を支援するために,サンプルの生成,特徴の選択,ハイパーパラメータのチューニング,アンサンブル推定器の訓練を行う汎用コンピュータ支援設計フローを提案する。 これに加えて、オンチップリアルタイム電力推定のためのトレーニングアンサンブル推定器のハードウェア実現について述べる。 実験では, 一般の線形モデルよりも2.41~6.07倍低い商業ゲートレベルの電力推定ツールの4.51%以内において, 一つの決定木モデルで予測誤差が得られることを示した。 さらに,提案するアンサンブルモデルを用いて,推定精度のさらなる向上について検討する。 実験の結果,本手法は最大誤差1.90%の範囲で電力予測の精度をさらに向上できることがわかった。 さらに、64人までのベース学習者を用いたアンサンブル監視ハードウェアのルックアップテーブル(lut)オーバーヘッドは、目標fpgaの1.22%以内であり、軽量でスケーラブルな特性を示す。

As field-programmable gate arrays become prevalent in critical application domains, their power consumption is of high concern. In this paper, we present and evaluate a power monitoring scheme capable of accurately estimating the runtime dynamic power of FPGAs in a fine-grained timescale, in order to support emerging power management techniques. In particular, we describe a novel and specialized ensemble model which can be decomposed into multiple customized decision-tree-based base learners. To aid in model synthesis, a generic computer-aided design flow is proposed to generate samples, select features, tune hyperparameters and train the ensemble estimator. Besides this, a hardware realization of the trained ensemble estimator is presented for on-chip real-time power estimation. In the experiments, we first show that a single decision tree model can achieve prediction error within 4.51% of a commercial gate-level power estimation tool, which is 2.41--6.07x lower than provided by the commonly used linear model. More importantly, we study the extra gains in inference accuracy using the proposed ensemble model. Experimental results reveal that the ensemble monitoring method can further improve the accuracy of power predictions to within a maximum error of 1.90%. Moreover, the lookup table (LUT) overhead of the ensemble monitoring hardware employing up to 64 base learners is within 1.22% of the target FPGA, indicating its light-weight and scalable characteristics.
翻訳日:2022-10-22 08:11:26 公開日:2020-09-03
# FPGAにおける実行時動的電力管理のための決定木に基づくハードウェア電力モニタリング

Decision Tree Based Hardware Power Monitoring for Run Time Dynamic Power Management in FPGA ( http://arxiv.org/abs/2009.01434v1 )

ライセンス: Link先を確認
Zhe Lin, Wei Zhang, Sharad Sinha(参考訳) きめ細かい実行時の電力管理技術は、電力削減に有望な解決策になり得る。 したがって、短時間(数十から数百のクロックサイクル)で動的電力変動を得るためには、正確な電力監視方式を確立することが不可欠である。 本稿では,決定木に基づく電力モデリング手法を活用し,FPGAプラットフォーム上でのハードウェアの電力モニタリングを行う。 動的パワーをきめ細かな方法で正確に推定できる決定木パワーモデルを実装するために、汎用的で完全な設計フローを開発した。 ハードウェアパワーモニタリングの柔軟なアーキテクチャが提案されており、実行時の電力推定のために任意のrtl設計に組み込むことができ、余分な電力測定装置が不要である。 資源タイプが異なるベンチマークに提案モデルを適用する実験結果から,動的パワー推定における平均誤差は最大4%となる。 また、電力監視回路によって発生する面積、電力、性能のオーバーヘッドは極めて低い。 最後に、オンチップ多相制御器を用いた位相シェディングを用いた電力管理手法を概念実証に応用し、FPGA内部論理の電力供給効率を14%向上することを示した。

Fine-grained runtime power management techniques could be promising solutions for power reduction. Therefore, it is essential to establish accurate power monitoring schemes to obtain dynamic power variation in a short period (i.e., tens or hundreds of clock cycles). In this paper, we leverage a decision-tree-based power modeling approach to establish fine-grained hardware power monitoring on FPGA platforms. A generic and complete design flow is developed to implement the decision tree power model which is capable of precisely estimating dynamic power in a fine-grained manner. A flexible architecture of the hardware power monitoring is proposed, which can be instrumented in any RTL design for runtime power estimation, dispensing with the need for extra power measurement devices. Experimental results of applying the proposed model to benchmarks with different resource types reveal an average error up to 4% for dynamic power estimation. Moreover, the overheads of area, power and performance incurred by the power monitoring circuitry are extremely low. Finally, we apply our power monitoring technique to the power management using phase shedding with an on-chip multi-phase regulator as a proof of concept and the results demonstrate 14% efficiency enhancement for the power supply of the FPGA internal logic.
翻訳日:2022-10-22 08:11:01 公開日:2020-09-03
# 海洋モデル応用のための変成試験シナリオの自動同定

Automated identification of metamorphic test scenarios for an ocean-modeling application ( http://arxiv.org/abs/2009.01554v1 )

ライセンス: Link先を確認
Dilip J. Hiremath, Martin Claus, Wilhelm Hasselbring, Willi Rath(参考訳) メタモルフィックテストは、テストオラクルがない場合にソフトウェアを検証する。 我々の応用分野は海洋モデリングであり、テストオラクルは存在しないことが多いが、シミュレーションされた物理システムの対称性が知られている。 本稿では,機械学習を用いた変成テストシナリオの自動生成に向けた取り組みについて述べる。 メタモルフィックテストは f(g(X))=h(f(X)) として表され、f はテスト中のアプリケーション、入力データ X はメタモルフィック関係 (g, h) で表される。 自動生成されたメタモルフィック関係は回帰テストの構築や、同じソフトウェアアプリケーションの異なるバージョンの比較に利用することができる。 ここでは、h を恒等写像に制限する。 そして、テストを構築するタスクは、機械学習アルゴリズムを使って取り組む異なるgを見つけることを意味します。 これらのアルゴリズムは一般的にコスト関数を最小化する。 1つの可能な g が恒等写像であることが既に知られているので、第二の可能な g を見つけるために、g を変成関係とし、g を恒等写像とするコスト関数を構築する。 最初の準同型関係を同定した後、手続きは以前発見された準同型関係に直交するコスト関数報酬gで繰り返される。 実験的な評価のために, 海洋モデルアプリケーションの2つの実装を, メタモルフィック関係を用いてアプリケーションの実装をテストする手法として提案する。

Metamorphic testing seeks to validate software in the absence of test oracles. Our application domain is ocean modeling, where test oracles often do not exist, but where symmetries of the simulated physical systems are known. In this short paper we present work in progress for automated generation of metamorphic test scenarios using machine learning. Metamorphic testing may be expressed as f(g(X))=h(f(X)) with f being the application under test, with input data X, and with the metamorphic relation (g, h). Automatically generated metamorphic relations can be used for constructing regression tests, and for comparing different versions of the same software application. Here, we restrict to h being the identity map. Then, the task of constructing tests means finding different g which we tackle using machine learning algorithms. These algorithms typically minimize a cost function. As one possible g is already known to be the identity map, for finding a second possible g, we construct the cost function to minimize for g being a metamorphic relation and to penalize for g being the identity map. After identifying the first metamorphic relation, the procedure is repeated with a cost function rewarding g that are orthogonal to previously found metamorphic relations. For experimental evaluation, two implementations of an ocean-modeling application will be subjected to the proposed method with the objective of presenting the use of metamorphic relations to test the implementations of the applications.
翻訳日:2022-10-22 08:10:13 公開日:2020-09-03
# 量子長短期記憶

Quantum Long Short-Term Memory ( http://arxiv.org/abs/2009.01783v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Shinjae Yoo, and Yao-Lung L. Fang(参考訳) LSTM(Long Short-term memory)は、シーケンスおよび時間依存性データモデリングのためのリカレントニューラルネットワークの一種であり、その効果が広く確立されている。 そこで本研究では,QLSTMをダブしたLSTMの量子古典モデルを提案する。 提案手法は,複数種類の時間データを学習できることを示す。 特に、あるテストケースにおいて、このLSTMの量子バージョンは、従来のものよりも早く、または同等に、より精度良く収束することを示す。 提案手法の変動特性により、量子ビット数と回路深さの要件が緩和され、ノイズの多い中間スケール量子(NISQ)デバイス上でのシーケンスモデリングのための機械学習アルゴリズムの実装への道が開かれた。

Long short-term memory (LSTM) is a kind of recurrent neural networks (RNN) for sequence and temporal dependency data modeling and its effectiveness has been extensively established. In this work, we propose a hybrid quantum-classical model of LSTM, which we dub QLSTM. We demonstrate that the proposed model successfully learns several kinds of temporal data. In particular, we show that for certain testing cases, this quantum version of LSTM converges faster, or equivalently, reaches a better accuracy, than its classical counterpart. Due to the variational nature of our approach, the requirements on qubit counts and circuit depth are eased, and our work thus paves the way toward implementing machine learning algorithms for sequence modeling on noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2022-10-22 08:09:48 公開日:2020-09-03
# ドローンシネマトグラフィーのための検出・認識軌道生成

Detection-Aware Trajectory Generation for a Drone Cinematographer ( http://arxiv.org/abs/2009.01565v1 )

ライセンス: Link先を確認
Boseong Felipe Jeon, Dongseok Shim and H. Jin Kim(参考訳) 本研究では, 動的目標を追尾するための効率的な軌道生成手法について検討した。 提案手法は,撮影用ドローンの動作を積極的に誘導し,撮影対象の色がドローンの視界の背景色とよく区別されるようにする。 目的,追跡経路を与えられた色検出性の測定値を定義する。 メトリックに最適化された離散経路を計算した後、動的に実現可能な軌道を生成する。 パイプライン全体をオンザフライで更新することで、ターゲットの動きに応答することができる。 効率的な離散経路生成のために、深度優先探索なしでトポロジカルソートを解析的に決定できる有向非巡回グラフ(DAG)を構築する。 滑らかな経路は2次プログラミング(QP)フレームワークで得られる。 提案手法により得られた軌道をカメラドローンが実行した場合,最先端の物体検出・追尾アルゴリズムの性能向上を検証した。

This work investigates an efficient trajectory generation for chasing a dynamic target, which incorporates the detectability objective. The proposed method actively guides the motion of a cinematographer drone so that the color of a target is well-distinguished against the colors of the background in the view of the drone. For the objective, we define a measure of color detectability given a chasing path. After computing a discrete path optimized for the metric, we generate a dynamically feasible trajectory. The whole pipeline can be updated on-the-fly to respond to the motion of the target. For the efficient discrete path generation, we construct a directed acyclic graph (DAG) for which a topological sorting can be determined analytically without the depth-first search. The smooth path is obtained in quadratic programming (QP) framework. We validate the enhanced performance of state-of-the-art object detection and tracking algorithms when the camera drone executes the trajectory obtained from the proposed method.
翻訳日:2022-10-22 08:03:46 公開日:2020-09-03
# 濃密な空間チャネル注意ネットワークとシンノグラムの一貫性を有する深部リカレント・フレームワークを用いた有限視点断層像再構成

Limited View Tomographic Reconstruction Using a Deep Recurrent Framework with Residual Dense Spatial-Channel Attention Network and Sinogram Consistency ( http://arxiv.org/abs/2009.01782v1 )

ライセンス: Link先を確認
Bo Zhou, S. Kevin Zhou, James S. Duncan, Chi Liu(参考訳) リミテッドビュートモグラフィー再構成は, 放射線線量削減や走査時間の短縮を図ったスパークビューや限られた角度取得から, シングラムや投影ビューの限られた数から断層像を再構成することを目的としている。 しかし、こうした復元は、シンノグラムの不完全さのため、高いノイズと重度のアーティファクトに苦しむ。 従来の最先端の手法では、UNetのようなニューラルアーキテクチャを使用して、限られたビューデータから完全なビュー再構築を直接予測するが、ディープネットワークアーキテクチャの問題はほとんど無傷のままであり、再構成された画像と取得されたシングラムの一貫性を保証できないため、非理想的な再構築につながる。 本研究では,同じブロックを複数回スタックする新しい再帰的再構築フレームワークを提案する。 リカレントブロックは、カスタム設計された残留密度空間チャネルアテンションネットワークで構成されている。 さらに,本手法では,繰り返しブロックの中間出力のシングラムと標本化シングラムが一致していることを保証するために,リカレントフレームワークにインターリーブされたシングラム一貫性層を開発する。 提案手法を2つのデータセットで評価する。 AAPM Low Dose CT Grand Challengeデータセットに対する実験結果から,PSNRでは5dB以上,PSNRでは4dB程度)とスパースビュー再構築(PSNRでは4dB程度)の両方において,既存の最先端のニューラル手法よりも一貫した,有意な改善が得られた。 また,深部病変データセットを用いた実験により,8種類の主要病変に対して高品質な再建が可能であった。

Limited view tomographic reconstruction aims to reconstruct a tomographic image from a limited number of sinogram or projection views arising from sparse view or limited angle acquisitions that reduce radiation dose or shorten scanning time. However, such a reconstruction suffers from high noise and severe artifacts due to the incompleteness of sinogram. To derive quality reconstruction, previous state-of-the-art methods use UNet-like neural architectures to directly predict the full view reconstruction from limited view data; but these methods leave the deep network architecture issue largely intact and cannot guarantee the consistency between the sinogram of the reconstructed image and the acquired sinogram, leading to a non-ideal reconstruction. In this work, we propose a novel recurrent reconstruction framework that stacks the same block multiple times. The recurrent block consists of a custom-designed residual dense spatial-channel attention network. Further, we develop a sinogram consistency layer interleaved in our recurrent framework in order to ensure that the sampled sinogram is consistent with the sinogram of the intermediate outputs of the recurrent blocks. We evaluate our methods on two datasets. Our experimental results on AAPM Low Dose CT Grand Challenge datasets demonstrate that our algorithm achieves a consistent and significant improvement over the existing state-of-the-art neural methods on both limited angle reconstruction (over 5dB better in terms of PSNR) and sparse view reconstruction (about 4dB better in term of PSNR). In addition, our experimental results on Deep Lesion datasets demonstrate that our method is able to generate high-quality reconstruction for 8 major lesion types.
翻訳日:2022-10-22 08:02:43 公開日:2020-09-03
# 最先端の網膜血管セグメンテーションを極小モデルで実現する小さなw-net

The Little W-Net That Could: State-of-the-Art Retinal Vessel Segmentation with Minimalistic Models ( http://arxiv.org/abs/2009.01907v1 )

ライセンス: Link先を確認
Adrian Galdran, Andr\'e Anjos, Jos\'e Dolz, Hadi Chakor, Herv\'e Lombaert, Ismail Ben Ayed(参考訳) 眼底画像からの網膜血管の分画は網膜画像解析における最も基本的な課題の1つである。 近年,洗練された畳み込みニューラルネットワークアーキテクチャに基づく複雑なアプローチが,確立されたベンチマークデータセットのパフォーマンスを徐々に押し上げている。 本稿では,そのような複雑さの真のニーズを一歩引いて分析する。 具体的には、数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、注意深く訓練され、厳密に評価され、現在のベストプラクティスの性能を近似していることを示す。 さらに、w-netと呼ばれる単純な拡張を提案する。これはいくつかの人気のあるデータセットで優れたパフォーマンスを達成し、これまで公表されたどのアプローチよりも学習可能な重みを桁違いに減らすことができる。 さらに、最大10の異なるデータベースを含む、これまでで最も包括的なクロスデータセットのパフォーマンス分析を提供する。 本研究は, 網膜血管のセグメンテーション問題は, トレーニングデータと大きく異なるテスト画像を考えると, 解決には程遠い問題であり, 本課題がドメイン適応手法の探索の理想的なシナリオであることを示すものである。 この文脈で、私たちは、データ間のパフォーマンスを適度に向上できるシンプルな自己ラベル戦略を実験し、この分野には改善の余地がまだたくさんあることを示す。 最後に, 動脈・静脈分画問題に対するアプローチをテストし, 最近の文献では, モデルの複雑さのごく一部で, 最先端とよく一致した結果が得られている。 本論文の結果を再現するコードはすべてリリースされている。

The segmentation of the retinal vasculature from eye fundus images represents one of the most fundamental tasks in retinal image analysis. Over recent years, increasingly complex approaches based on sophisticated Convolutional Neural Network architectures have been slowly pushing performance on well-established benchmark datasets. In this paper, we take a step back and analyze the real need of such complexity. Specifically, we demonstrate that a minimalistic version of a standard U-Net with several orders of magnitude less parameters, carefully trained and rigorously evaluated, closely approximates the performance of current best techniques. In addition, we propose a simple extension, dubbed W-Net, which reaches outstanding performance on several popular datasets, still using orders of magnitude less learnable weights than any previously published approach. Furthermore, we provide the most comprehensive cross-dataset performance analysis to date, involving up to 10 different databases. Our analysis demonstrates that the retinal vessel segmentation problem is far from solved when considering test images that differ substantially from the training data, and that this task represents an ideal scenario for the exploration of domain adaptation techniques. In this context, we experiment with a simple self-labeling strategy that allows us to moderately enhance cross-dataset performance, indicating that there is still much room for improvement in this area. Finally, we also test our approach on the Artery/Vein segmentation problem, where we again achieve results well-aligned with the state-of-the-art, at a fraction of the model complexity in recent literature. All the code to reproduce the results in this paper is released.
翻訳日:2022-10-22 08:01:52 公開日:2020-09-03
# LiPo-LCD:外見に基づくループクロージャ検出のための線と点の組み合わせ

LiPo-LCD: Combining Lines and Points for Appearance-based Loop Closure Detection ( http://arxiv.org/abs/2009.09897v1 )

ライセンス: Link先を確認
Joan P. Company-Corcoles, Emilio Garcia-Fidalgo, Alberto Ortiz(参考訳) 視覚SLAMのアプローチは、通常、地図やカメラの軌跡計算の間に生じる不整合を補正するためにループ閉鎖検出に依存し、通常、既存のループを検出して閉じるための点特徴を利用する。 しかし、低テキストシナリオでは十分なポイント特徴を見つけるのは難しいため、これらのソリューションの性能は大幅に低下する。 ヒューマンメイドのシナリオの代替として、構造的な規則性があるため、ストレートセグメントのような幾何学的な手掛かりがこれらの環境にしばしば存在する。 本稿では,線と点を統合する新しいループクロージャ検出法LiPo-LCDを提案する。 インクリメンタルなBag-of-Binary-Wordsスキームを取り入れて、各機能用に別々のBoWモデルを構築し、それらを使用して、後期融合戦略を用いて、以前の画像を取得する。 さらに、アイランドの概念に基づいた、単純で効果的なメカニズムは、画像候補の検索労力を減らすために、類似した画像を時間内にグループ化する。 最終ステップは、ライン特徴マッチング段階からなるプロセスにより検出されたラインを組み込んでループ候補を幾何的に検証し、その後、堅牢な空間検証段階を経て、現在、ラインとポイントを組み合わせている。 論文で報告されているように、LiPo-LCDは異なる環境条件を含むいくつかのデータセットに対する最先端のソリューションとよく比較されている。

Visual SLAM approaches typically depend on loop closure detection to correct the inconsistencies that may arise during the map and camera trajectory calculations, typically making use of point features for detecting and closing the existing loops. In low-textured scenarios, however, it is difficult to find enough point features and, hence, the performance of these solutions drops drastically. An alternative for human-made scenarios, due to their structural regularity, is the use of geometrical cues such as straight segments, frequently present within these environments. Under this context, in this paper we introduce LiPo-LCD, a novel appearance-based loop closure detection method that integrates lines and points. Adopting the idea of incremental Bag-of-Binary-Words schemes, we build separate BoW models for each feature, and use them to retrieve previously seen images using a late fusion strategy. Additionally, a simple but effective mechanism, based on the concept of island, groups similar images close in time to reduce the image candidate search effort. A final step validates geometrically the loop candidates by incorporating the detected lines by means of a process comprising a line feature matching stage, followed by a robust spatial verification stage, now combining both lines and points. As it is reported in the paper, LiPo-LCD compares well with several state-of-the-art solutions for a number of datasets involving different environmental conditions.
翻訳日:2022-10-22 08:00:56 公開日:2020-09-03
# フローエッジガイド映像の完成

Flow-edge Guided Video Completion ( http://arxiv.org/abs/2009.01835v1 )

ライセンス: Link先を確認
Chen Gao, Ayush Saraf, Jia-Bin Huang, Johannes Kopf(参考訳) 本稿では,新しいフローベースビデオ補完アルゴリズムを提案する。 従来のフロー完了法は、しばしば動き境界の鋭さを保つことができない。 提案手法は,まず動きエッジを抽出し,その後,鋭いエッジで平滑な流れ完了を導出する。 既存の方法は、隣接するフレーム間の局所的なフロー接続間の色を伝搬する。 しかし、動画の欠落した領域が、動きの境界が不可避な障壁を形成するため、このような方法で到達できるわけではない。 本手法は,時間的に離れたフレームに非局所的なフロー接続を導入することでこの問題を軽減する。 DAVISデータセットに対する我々のアプローチを検証する。 視覚的および定量的な結果から,本手法は最先端アルゴリズムと好適に比較できることがわかった。

We present a new flow-based video completion algorithm. Previous flow completion methods are often unable to retain the sharpness of motion boundaries. Our method first extracts and completes motion edges, and then uses them to guide piecewise-smooth flow completion with sharp edges. Existing methods propagate colors among local flow connections between adjacent frames. However, not all missing regions in a video can be reached in this way because the motion boundaries form impenetrable barriers. Our method alleviates this problem by introducing non-local flow connections to temporally distant frames, enabling propagating video content over motion boundaries. We validate our approach on the DAVIS dataset. Both visual and quantitative results show that our method compares favorably against the state-of-the-art algorithms.
翻訳日:2022-10-22 07:54:12 公開日:2020-09-03
# 多視点意味情報検索

Multi-Perspective Semantic Information Retrieval ( http://arxiv.org/abs/2009.01938v1 )

ライセンス: Link先を確認
Samarth Rawal and Chitta Baral(参考訳) 情報検索 (Information Retrieval, IR) は、特定のクエリに関連するデータ(文書やテキストの断片など)や、大量の情報のリポジトリから必要なデータを取得するタスクである。 従来のキーワードと最新のBERTベースのアプローチの組み合わせは、最近の研究で有効であることが示されているが、特定のクエリにどのような情報が"関連"しているかを特定するには、しばしばニュアンスがある。 マルチパースペクティブIRシステムの概念は、複数のディープラーニングと従来のIRモデルを組み合わせてクエリと文のペアの関連性をより正確に予測する新しい手法であり、このシステムをチューニングするための標準化されたフレームワークである。 この研究はBioASQ Biomedical IR + QA Challengeで評価されている。

Information Retrieval (IR) is the task of obtaining pieces of data (such as documents or snippets of text) that are relevant to a particular query or need from a large repository of information. While a combination of traditional keyword- and modern BERT-based approaches have been shown to be effective in recent work, there are often nuances in identifying what information is "relevant" to a particular query, which can be difficult to properly capture using these systems. This work introduces the concept of a Multi-Perspective IR system, a novel methodology that combines multiple deep learning and traditional IR models to better predict the relevance of a query-sentence pair, along with a standardized framework for tuning this system. This work is evaluated on the BioASQ Biomedical IR + QA challenges.
翻訳日:2022-10-22 07:54:01 公開日:2020-09-03
# 注意の流れ:言語モデルにおける注意機構の分析と比較

Attention Flows: Analyzing and Comparing Attention Mechanisms in Language Models ( http://arxiv.org/abs/2009.07053v1 )

ライセンス: Link先を確認
Joseph F DeRose, Jiayao Wang, and Matthew Berger(参考訳) 言語モデリングの進歩は、様々な自然言語処理(NLP)問題にまたがる、深い注意に基づくモデルの開発につながっている。 これらの言語モデルは、大きなラベルのないテキストコーパスの事前学習プロセスによってタイプされ、その後特定のタスクのために微調整される。 事前学習されたモデルの注意機構の理解に多くの研究が費やされているが、対象のNLPタスクのトレーニングにおいて、モデルの注意機構がどのように変化するかは理解されていない。 本稿では,注意に基づく言語モデルの微調整を理解するための視覚的分析手法を提案する。 私たちの視覚化であるAttention Flowsは、Transformerベースの言語モデルにおいて、レイヤ内のクエリ、トレース、関心の比較をサポートするように設計されています。 ユーザによる分類決定の仕方を理解するために,最も深い層における分類に基づく注意の表現と,入力中の単語全体を通して先行層からの注意がどのように流れているかに焦点を当てた設計を行った。 Attention Flowsは単一のモデルの解析をサポートし、類似点と相違点を通じて事前訓練されたモデルと微調整されたモデルの視覚的比較を行う。 我々は,様々な文理解課題における注意のメカニズムを研究するために注意の流れを使用し,これらの課題を解決するニュアンスに対処するために注意がどのように発展するかを強調する。

Advances in language modeling have led to the development of deep attention-based models that are performant across a wide variety of natural language processing (NLP) problems. These language models are typified by a pre-training process on large unlabeled text corpora and subsequently fine-tuned for specific tasks. Although considerable work has been devoted to understanding the attention mechanisms of pre-trained models, it is less understood how a model's attention mechanisms change when trained for a target NLP task. In this paper, we propose a visual analytics approach to understanding fine-tuning in attention-based language models. Our visualization, Attention Flows, is designed to support users in querying, tracing, and comparing attention within layers, across layers, and amongst attention heads in Transformer-based language models. To help users gain insight on how a classification decision is made, our design is centered on depicting classification-based attention at the deepest layer and how attention from prior layers flows throughout words in the input. Attention Flows supports the analysis of a single model, as well as the visual comparison between pre-trained and fine-tuned models via their similarities and differences. We use Attention Flows to study attention mechanisms in various sentence understanding tasks and highlight how attention evolves to address the nuances of solving these tasks.
翻訳日:2022-10-22 07:53:48 公開日:2020-09-03
# 機械学習を用いたRNA第三次構造の計算予測

Computational prediction of RNA tertiary structures using machine learning methods ( http://arxiv.org/abs/2009.01440v1 )

ライセンス: Link先を確認
Bin Huang, Yuanyang Du, Shuai Zhang, Wenfei Li, Jun Wang, Jian Zhang(参考訳) RNAは生物学的プロセスにおいて決定的かつ汎用的な役割を担っている。 計算予測アプローチは、RNA構造とその安定化因子を理解し、それらの機能に関する情報を提供し、新しいRNAの設計を容易にする。 機械学習(ML)技術はここ数年、多くの分野で大きな進歩を遂げてきた。 タンパク質関連分野におけるそれらの利用は長い歴史を持つが、RNA第三次構造予測におけるML法の使用は新しく稀である。 本稿では,rna構造予測におけるml法の利用の最近の進歩を概観し,この分野に適用する手法の利点と限界,課題と可能性について考察する。

RNAs play crucial and versatile roles in biological processes. Computational prediction approaches can help to understand RNA structures and their stabilizing factors, thus providing information on their functions, and facilitating the design of new RNAs. Machine learning (ML) techniques have made tremendous progress in many fields in the past few years. Although their usage in protein-related fields has a long history, the use of ML methods in predicting RNA tertiary structures is new and rare. Here, we review the recent advances of using ML methods on RNA structure predictions and discuss the advantages and limitation, the difficulties and potentials of these approaches when applied in the field.
翻訳日:2022-10-22 07:53:05 公開日:2020-09-03
# 知的表面支援通信のための深層学習最適化スパースアンテナ活性化

Deep Learning Optimized Sparse Antenna Activation for Reconfigurable Intelligent Surface Assisted Communication ( http://arxiv.org/abs/2009.01607v1 )

ライセンス: Link先を確認
Shunbo Zhang, Shun Zhang, Feifei Gao, Jianpeng Ma, Octavia A. Dobre(参考訳) 電力コストの低い大規模放射素子の通信利得を捉えるため、従来の構成変更可能なインテリジェントサーフェス(RIS)は通常受動モードで動作する。 しかし、カスケードされたチャネル構造と信号処理能力の欠如により、risが個々のチャネル状態情報を取得し、ビームフォーミングベクトルを最適化することは困難である。 本稿では、RISのアンテナの一部に信号処理ユニットを追加し、チャネルを部分的に取得する。 重要なアクティブアンテナ選択問題を解決するために,確率的サンプリング理論を用いたアクティブアンテナ選択ネットワークを構築し,これらアクティブアンテナの最適な位置を選定する。 このアクティブアンテナ選択ネットワークにより、さらに2つのディープラーニング(DL)ベースのスキーム、すなわちチャネル外挿法とビーム探索法を設計し、RIS通信システムを実現する。 前者は、選択ネットワークと畳み込みニューラルネットワークを用いて、アクティブRISアンテナが受信した部分チャネルから全チャネルを外挿し、後者は、完全接続ニューラルネットワークを用いて、部分チャネルと最適なビームフォーミングベクトルとを最大伝送レートで直接マッピングする。 設計したDLベースのスキームの有効性を示すシミュレーション結果を提供する。

To capture the communications gain of the massive radiating elements with low power cost, the conventional reconfigurable intelligent surface (RIS) usually works in passive mode. However, due to the cascaded channel structure and the lack of signal processing ability, it is difficult for RIS to obtain the individual channel state information and optimize the beamforming vector. In this paper, we add signal processing units for a few antennas at RIS to partially acquire the channels. To solve the crucial active antenna selection problem, we construct an active antenna selection network that utilizes the probabilistic sampling theory to select the optimal locations of these active antennas. With this active antenna selection network, we further design two deep learning (DL) based schemes, i.e., the channel extrapolation scheme and the beam searching scheme, to enable the RIS communication system. The former utilizes the selection network and a convolutional neural network to extrapolate the full channels from the partial channels received by the active RIS antennas, while the latter adopts a fully-connected neural network to achieve the direct mapping between the partial channels and the optimal beamforming vector with maximal transmission rate. Simulation results are provided to demonstrate the effectiveness of the designed DL-based schemes.
翻訳日:2022-10-22 07:52:55 公開日:2020-09-03
# FDD重畳MIMOにおけるチャネル外挿のための深層学習に基づくアンテナ選択

Deep Learning Based Antenna Selection for Channel Extrapolation in FDD Massive MIMO ( http://arxiv.org/abs/2009.01653v1 )

ライセンス: Link先を確認
Yindi Yang, Shun Zhang, Feifei Gao, Chao Xu, Jianpeng Ma, Octavia A. Dobre(参考訳) 大規模なマルチインプット多重出力(MIMO)システムでは、多数のアンテナが正確なチャネル状態情報、特に周波数分割二重モードの取得に大きな困難をもたらす。 ハイブリッドビームフォーミングにおける限られた数の無線リンクのボトルネックを克服するために、ニューラルネットワーク(NN)を用いて、アップリンクとダウンリンクチャネルデータセット間の固有の接続を捕捉し、アップリンクチャネル状態情報のサブセットからダウンリンクチャネルを外挿する。 本研究では,最良チャネル外挿を実現し,nnのデータサイズを小さくするために,アンテナサブセット選択問題を検討する。 確率的サンプリング理論を用いて、離散アンテナ選択を連続的かつ微分可能な関数として近似し、深層学習の後方伝播を可能にする。 そして、アンテナ選択パターンと外挿NNの両方を最適化する適切なオフライントレーニング戦略を設計する。 最後に,提案する大規模mimoチャネル外挿アルゴリズムの有効性を検証するため,数値実験を行った。

In massive multiple-input multiple-output (MIMO) systems, the large number of antennas would bring a great challenge for the acquisition of the accurate channel state information, especially in the frequency division duplex mode. To overcome the bottleneck of the limited number of radio links in hybrid beamforming, we utilize the neural networks (NNs) to capture the inherent connection between the uplink and downlink channel data sets and extrapolate the downlink channels from a subset of the uplink channel state information. We study the antenna subset selection problem in order to achieve the best channel extrapolation and decrease the data size of NNs. The probabilistic sampling theory is utilized to approximate the discrete antenna selection as a continuous and differentiable function, which makes the back propagation of the deep learning feasible. Then, we design the proper off-line training strategy to optimize both the antenna selection pattern and the extrapolation NNs. Finally, numerical results are presented to verify the effectiveness of our proposed massive MIMO channel extrapolation algorithm.
翻訳日:2022-10-22 07:52:35 公開日:2020-09-03
# TAP-Net:強化学習を用いたトランスポート・アンド・パック

TAP-Net: Transport-and-Pack using Reinforcement Learning ( http://arxiv.org/abs/2009.01469v1 )

ライセンス: Link先を確認
Ruizhen Hu, Juzhan Xu, Bin Chen, Minglun Gong, Hao Zhang, Hui Huang(参考訳) 本稿では,実世界のパッキングにおいて頻繁に発生するTAP問題を紹介し,強化学習に基づくニューラル最適化ソリューションを開発する。 箱の初期空間構成を考えると、箱をターゲットの容器にコンパクトに移動し、パックする効率的な方法を求める。 障害とアクセシビリティの制約により、我々は、パッキングだけで既に巨大な検索空間に最適なトランスポートシーケンスを見つけるという新しい検索次元を追加する必要がある。 学習ベースのアプローチを使用して、トレーニングされたネットワークは、高価なオンライン検索を実行する代わりに、ソリューションパターンを学び、エンコードすることで、新しい問題インスタンスのソリューションをガイドすることができる。 本研究では,先行グラフを用いて輸送制約を表現し,ニューラルネットワークであるtap-netを訓練し,強化学習を用いて効率良く安定したパッキングを報奨する。 ネットワークは、エンコーダ-デコーダアーキテクチャに基づいて構築され、エンコーダは、ボックスの幾何学と優先順位グラフをエンコードするために畳み込み層を使用し、デコーダは、現在のエンコーダ出力とターゲットコンテナの現在のボックスパック状態とを入力し、次のボックスをパックに出力するリカレントニューラルネットワーク(RNN)である。 ネットワークを無監督でランダムに生成した初期ボックス構成でトレーニングし、パッキング効率と安定性を最大化するために最適なTAPポリシーを学習する。 様々な例でtap-netの性能を実証し,アブレーション研究によるネットワーク評価を行い,ベースラインや代替ネットワーク設計との比較を行った。 また、我々のネットワークは、小さな入力でトレーニングされた場合に、より大きな問題インスタンスにうまく一般化することを示している。

We introduce the transport-and-pack(TAP) problem, a frequently encountered instance of real-world packing, and develop a neural optimization solution based on reinforcement learning. Given an initial spatial configuration of boxes, we seek an efficient method to iteratively transport and pack the boxes compactly into a target container. Due to obstruction and accessibility constraints, our problem has to add a new search dimension, i.e., finding an optimal transport sequence, to the already immense search space for packing alone. Using a learning-based approach, a trained network can learn and encode solution patterns to guide the solution of new problem instances instead of executing an expensive online search. In our work, we represent the transport constraints using a precedence graph and train a neural network, coined TAP-Net, using reinforcement learning to reward efficient and stable packing. The network is built on an encoder-decoder architecture, where the encoder employs convolution layers to encode the box geometry and precedence graph and the decoder is a recurrent neural network (RNN) which inputs the current encoder output, as well as the current box packing state of the target container, and outputs the next box to pack, as well as its orientation. We train our network on randomly generated initial box configurations, without supervision, via policy gradients to learn optimal TAP policies to maximize packing efficiency and stability. We demonstrate the performance of TAP-Net on a variety of examples, evaluating the network through ablation studies and comparisons to baselines and alternative network designs. We also show that our network generalizes well to larger problem instances, when trained on small-sized inputs.
翻訳日:2022-10-22 07:51:52 公開日:2020-09-03
# 加齢黄斑変性に対するFundus画像解析 : ADAM-2020 Challenge Report

Fundus Image Analysis for Age Related Macular Degeneration: ADAM-2020 Challenge Report ( http://arxiv.org/abs/2009.01548v1 )

ライセンス: Link先を確認
Sharath M Shankaranarayana(参考訳) 加齢関連黄斑変性症(AMD)は高齢者の視覚障害の主要な原因の1つである。 本報告では,amd診断支援のためのカラーベース画像を用いた深層学習に基づく網膜分析手法を提案する。 我々は,最新の最先端のアート深層ネットワークを用いて,amd分類パイプラインを構築する。 また,病変の検出や分節化,fovea検出,視板分節化などの他の直接的および補助的なタスクについても提案する。 セグメント化と検出のタスクにGAN(Generative Adversarial Network)を適用することを提案する。 また,gansを用いた新しいfovea検出法を提案する。

Age related macular degeneration (AMD) is one of the major causes for blindness in the elderly population. In this report, we propose deep learning based methods for retinal analysis using color fundus images for computer aided diagnosis of AMD. We leverage the recent state of the art deep networks for building a single fundus image based AMD classification pipeline. We also propose methods for the other directly relevant and auxiliary tasks such as lesions detection and segmentation, fovea detection and optic disc segmentation. We propose the use of generative adversarial networks (GANs) for the tasks of segmentation and detection. We also propose a novel method of fovea detection using GANs.
翻訳日:2022-10-22 07:51:19 公開日:2020-09-03
# 異なる推進剤と目的物に対する再使用型ロケットの多分野設計最適化

Multidisciplinary Design Optimization of Reusable Launch Vehicles for Different Propellants and Objectives ( http://arxiv.org/abs/2009.01664v1 )

ライセンス: Link先を確認
Kai Dresia, Simon Jentzsch, G\"unther Waxenegger-Wilfing, Robson Hahn, Jan Deeken, Michael Oschwald, Fabio Mota(参考訳) 初期の開発段階における設計決定は、車両の後期性能を制限し、関連するコストを決定するため、新しい打ち上げ車両の最適設計を特定することが最も重要である。 逆推進着陸による第1段の再利用により、さらに複雑さが増す。 そこで我々は,多分野の設計研究を可能にする部分再利用可能な打ち上げ車両の最適化フレームワークを開発した。 このフレームワークは、すべての必須サブシステムの適切な質量推定と、上昇および着陸操作に必要な推進剤を計算するルーチンを含む。 設計最適化のために、このフレームワークは遺伝的アルゴリズムと結合することができる。 全体的な目標は、様々なミッションシナリオに対するランチャーの最適設計に異なる推進剤の組み合わせと目的関数が与える影響を明らかにすることである。 その結果, 最適化目標が最も適切な推進剤の選択とランチャー設計に影響を与え, ステージング, 重量, サイズ, ロケットエンジンのパラメータについて検討した。 総リフトオフ重量の面では、液体水素が好ましいようである。 最小構造質量または拡張可能な構造質量を最適化する場合、炭化水素系溶液はより良い結果を示す。 最後に、第1段の炭化水素燃料と上段の液体水素を用いた打ち上げ車両は、両方の燃料の利点を組み合わせた魅力的な代替手段である。

Identifying the optimal design of a new launch vehicle is most important since design decisions made in the early development phase limit the vehicles' later performance and determines the associated costs. Reusing the first stage via retro-propulsive landing increases the complexity even more. Therefore, we develop an optimization framework for partially reusable launch vehicles, which enables multidisciplinary design studies. The framework contains suitable mass estimates of all essential subsystems and a routine to calculate the needed propellant for the ascent and landing maneuvers. For design optimization, the framework can be coupled with a genetic algorithm. The overall goal is to reveal the implications of different propellant combinations and objective functions on the launcher's optimal design for various mission scenarios. The results show that the optimization objective influences the most suitable propellant choice and the overall launcher design, concerning staging, weight, size, and rocket engine parameters. In terms of gross lift-off weight, liquid hydrogen seems to be favorable. When optimizing for a minimum structural mass or an expandable structural mass, hydrocarbon-based solutions show better results. Finally, launch vehicles using a hydrocarbon fuel in the first stage and liquid hydrogen in the upper stage are an appealing alternative, combining both fuels' benefits.
翻訳日:2022-10-22 07:45:25 公開日:2020-09-03
# 空間変圧器点畳み込み

Spatial Transformer Point Convolution ( http://arxiv.org/abs/2009.01427v1 )

ライセンス: Link先を確認
Yuan Fang, Chunyan Xu, Zhen Cui, Yuan Zong, and Jian Yang(参考訳) 点雲は非構造であり、3D空間に埋め込まれていない。 異なる置換レイアウトの下で一貫した応答を生成するために、既存の手法では、最大または総和演算によって局所空間点を集約する。 しかし、そのようなアグリゲーションは本質的にすべての操作点の等方的フィルタリングに属し、幾何学的構造に関する情報を失う傾向がある。 本稿では,点雲上での異方性畳み込みフィルタを実現するための空間変圧器点畳み込み法を提案する。 暗黙的な幾何学構造を捉え,表現するために,空間方向辞書を導入する。 非順序の隣点をより良くエンコードするために、方向辞書学習を用いて、スパース変形器を正準順序辞書空間に変換するように設計する。 変換空間では、標準画像のような畳み込みを利用して異方性フィルタを生成することができ、局所領域のより微細な分散を表現することがより堅牢である。 辞書学習と符号化プロセスはネットワークモジュールにカプセル化され、エンドツーエンドで共同で学習される。 複数の公開データセット(S3DIS,Semantic3D,SemanticKITTIなど)に対する大規模な実験により,提案手法の有効性が示された。

Point clouds are unstructured and unordered in the embedded 3D space. In order to produce consistent responses under different permutation layouts, most existing methods aggregate local spatial points through maximum or summation operation. But such an aggregation essentially belongs to the isotropic filtering on all operated points therein, which tends to lose the information of geometric structures. In this paper, we propose a spatial transformer point convolution (STPC) method to achieve anisotropic convolution filtering on point clouds. To capture and represent implicit geometric structures, we specifically introduce spatial direction dictionary to learn those latent geometric components. To better encode unordered neighbor points, we design sparse deformer to transform them into the canonical ordered dictionary space by using direction dictionary learning. In the transformed space, the standard image-like convolution can be leveraged to generate anisotropic filtering, which is more robust to express those finer variances of local regions. Dictionary learning and encoding processes are encapsulated into a network module and jointly learnt in an end-to-end manner. Extensive experiments on several public datasets (including S3DIS, Semantic3D, SemanticKITTI) demonstrate the effectiveness of our proposed method in point clouds semantic segmentation task.
翻訳日:2022-10-22 07:45:02 公開日:2020-09-03
# 医用画像とレポートのマルチモーダル表現学習のための事前学習型視覚言語モデルの比較

A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports ( http://arxiv.org/abs/2009.01523v1 )

ライセンス: Link先を確認
Yikuan Li, Hanyin Wang and Yuan Luo(参考訳) 医用画像と関連する文脈報告から抽出された共同画像テキスト埋め込みは、医用視覚質問応答、臨床画像テキスト検索、臨床報告自動生成を含む、ほとんどの生体視覚言語(V+L)タスクの基盤となる。 本研究では,LXMERT,VisualBERT,UNIER,PixelBERTの4つの事前学習V+Lモデルを用いて,MIMIC-CXRラジオグラフィーおよび関連レポートからマルチモーダル表現を学習する。 openiデータセットのextrinsic evaluationは、先駆的なcnn-rnnモデルと比較して、事前訓練されたv+lモデルで学習されたジョイント埋め込みが胸部所見分類タスクの性能向上を示していることを示している。 我々は,特定のモデルコンポーネントの寄与を分析し,テキストのみの埋め込みによるジョイント埋め込みの利点を検証するため,アブレーション研究を行う。 また、V+Lモデルの注意機構を視覚化する。

Joint image-text embedding extracted from medical images and associated contextual reports is the bedrock for most biomedical vision-and-language (V+L) tasks, including medical visual question answering, clinical image-text retrieval, clinical report auto-generation. In this study, we adopt four pre-trained V+L models: LXMERT, VisualBERT, UNIER and PixelBERT to learn multimodal representation from MIMIC-CXR radiographs and associated reports. The extrinsic evaluation on OpenI dataset shows that in comparison to the pioneering CNN-RNN model, the joint embedding learned by pre-trained V+L models demonstrate performance improvement in the thoracic findings classification task. We conduct an ablation study to analyze the contribution of certain model components and validate the advantage of joint embedding over text-only embedding. We also visualize attention maps to illustrate the attention mechanism of V+L models.
翻訳日:2022-10-22 07:44:19 公開日:2020-09-03
# 固有画像分解のための物理に基づくシェーディング再構成

Physics-based Shading Reconstruction for Intrinsic Image Decomposition ( http://arxiv.org/abs/2009.01540v1 )

ライセンス: Link先を確認
Anil S. Baslamisli and Yang Liu and Sezer Karaoglu and Theo Gevers(参考訳) 内在画像(アルベドとシェーディング)の計算に光度不変性と深層学習を用いることを検討した。 物理モデルから導出したアルベドおよびシェーディング勾配記述子を提案する。 記述子を用いてアルベド遷移をマスクアウトし、学習不要な教師なしの方法で対応するRGB画像勾配から直接初期スパースシェーディングマップを算出する。 そして,全密度シェーディングマップを再構築する最適化手法を提案する。 最後に,生成されたシェーディングマップを新しい深層学習フレームワークに統合して改良し,対応するアルベド画像の予測を行い,本質的な画像分解を実現する。 そうすることで、シェーディング推定のテクスチャと強度の曖昧さの問題に直接対処することができる。 大規模実験により,我々のアプローチは,MIT Intrinsics, NIR-RGB Intrinsics, Multi-Illuminant Intrinsic Images, Spectral Intrinsic Images, As Realistic As Possible, and competitive results on Intrinsic Images in the Wild datasets において,最先端シェーディング推定を達成しながら,優れた結果が得られることが示された。

We investigate the use of photometric invariance and deep learning to compute intrinsic images (albedo and shading). We propose albedo and shading gradient descriptors which are derived from physics-based models. Using the descriptors, albedo transitions are masked out and an initial sparse shading map is calculated directly from the corresponding RGB image gradients in a learning-free unsupervised manner. Then, an optimization method is proposed to reconstruct the full dense shading map. Finally, we integrate the generated shading map into a novel deep learning framework to refine it and also to predict corresponding albedo image to achieve intrinsic image decomposition. By doing so, we are the first to directly address the texture and intensity ambiguity problems of the shading estimations. Large scale experiments show that our approach steered by physics-based invariant descriptors achieve superior results on MIT Intrinsics, NIR-RGB Intrinsics, Multi-Illuminant Intrinsic Images, Spectral Intrinsic Images, As Realistic As Possible, and competitive results on Intrinsic Images in the Wild datasets while achieving state-of-the-art shading estimations.
翻訳日:2022-10-22 07:44:01 公開日:2020-09-03
# lvis challenge 2020の1位: 良い箱は良いマスクの保証ではない

1st Place Solution of LVIS Challenge 2020: A Good Box is not a Guarantee of a Good Mask ( http://arxiv.org/abs/2009.01559v1 )

ライセンス: Link先を確認
Jingru Tan, Gang Zhang, Hanming Deng, Changbao Wang, Lewei Lu, Quanquan Li, Jifeng Dai(参考訳) この記事では、LVIS Challenge 2020のチーム向けlvisTravelerのソリューションを紹介します。 本稿では,LVISデータセットの特徴として,長期分布と高品質なインスタンスセグメンテーションマスクの2つについて考察する。 2段階のトレーニングパイプラインを採用しています。 最初の段階では、EQLと自己学習を取り入れて、一般化された表現を学びます。 第2段階では,Balotd GroupSoftmaxを用いて分類器のプロモートを行い,より正確なマスク予測を行うための新しい提案手法とマスクヘッドのための新しいバランスマスク損失を提案する。 最後に、LVIS v1.0 val と test-dev の 41.5 と 41.2 AP をそれぞれ達成し、X101-FPN-MaskRCNN に基づくベースラインを大きなマージンで上回った。

This article introduces the solutions of the team lvisTraveler for LVIS Challenge 2020. In this work, two characteristics of LVIS dataset are mainly considered: the long-tailed distribution and high quality instance segmentation mask. We adopt a two-stage training pipeline. In the first stage, we incorporate EQL and self-training to learn generalized representation. In the second stage, we utilize Balanced GroupSoftmax to promote the classifier, and propose a novel proposal assignment strategy and a new balanced mask loss for mask head to get more precise mask predictions. Finally, we achieve 41.5 and 41.2 AP on LVIS v1.0 val and test-dev splits respectively, outperforming the baseline based on X101-FPN-MaskRCNN by a large margin.
翻訳日:2022-10-22 07:43:31 公開日:2020-09-03
# DESC:意味的一貫性による深さ推定のためのドメイン適応

DESC: Domain Adaptation for Depth Estimation via Semantic Consistency ( http://arxiv.org/abs/2009.01579v1 )

ライセンス: Link先を確認
Adrian Lopez-Rodriguez, Krystian Mikolajczyk(参考訳) 正確な真深度アノテーションは取得が困難であり、LiDARセンサーのような特別なデバイスを使用する必要がある。 自己監督的手法はビデオやステレオシーケンスを処理することでこの問題を克服しようとするが、これは必ずしも利用できない。 そこで本研究では,完全注釈付きソースデータセットと非注釈付きターゲットデータセットを用いて,単眼深度推定モデルを訓練するためのドメイン適応手法を提案する。 セマンティックな予測と低レベルのエッジ機能を活用してドメインギャップをブリッジし、ターゲットドメインのガイダンスを提供します。 主モデルとセマンティクスセグメンテーションとエッジマップで訓練された第2モデルの一貫性を強制し、インスタンスの高さという形で事前設定を導入する。 本手法は,単眼深度推定のための標準領域適応ベンチマークを用いて評価し,最先端において一貫した改善を示す。

Accurate real depth annotations are difficult to acquire, needing the use of special devices such as a LiDAR sensor. Self-supervised methods try to overcome this problem by processing video or stereo sequences, which may not always be available. Instead, in this paper, we propose a domain adaptation approach to train a monocular depth estimation model using a fully-annotated source dataset and a non-annotated target dataset. We bridge the domain gap by leveraging semantic predictions and low-level edge features to provide guidance for the target domain. We enforce consistency between the main model and a second model trained with semantic segmentation and edge maps, and introduce priors in the form of instance heights. Our approach is evaluated on standard domain adaptation benchmarks for monocular depth estimation and show consistent improvement upon the state-of-the-art.
翻訳日:2022-10-22 07:43:15 公開日:2020-09-03
# リモートセンシング画像における特徴注意ハイライトモジュールによるオブジェクト検出

Few-shot Object Detection with Feature Attention Highlight Module in Remote Sensing Images ( http://arxiv.org/abs/2009.01616v1 )

ライセンス: Link先を確認
Zixuan Xiao, Ping Zhong, Yuan Quan, Xuping Yin, Wei Xue(参考訳) 近年、リモートセンシングの分野では、大量のラベル付きデータを必要とする物体検出の応用が数多く行われている。 しかし、多くの場合、データは極めて稀である。 本稿では, ごく少数の例に基づいて, 新規な物体を検出するために設計された, 数発の物体検出器を提案する。 ラベル付きベースクラスを完全に活用することで,特徴抽出モジュール,特徴強調強調モジュール,および2段階検出バックエンドで構成されるモデルが,新しいクラスに迅速に適応できる。 パラメータを共有する事前訓練された特徴抽出器は、一般的な特徴を生成する。 機能重視のハイライトモジュールは、いくつかのケースに合うように軽量でシンプルに設計されている。 単純ではあるが、連続的な方法で提供される情報は、少数のオブジェクトに特有の一般的なフィーチャを作るのに役立ちます。 そして、検出結果のために、オブジェクト固有の機能を2段階検出バックエンドに配信する。 実験により,提案手法の有効性が実証された。

In recent years, there are many applications of object detection in remote sensing field, which demands a great number of labeled data. However, in many cases, data is extremely rare. In this paper, we proposed a few-shot object detector which is designed for detecting novel objects based on only a few examples. Through fully leveraging labeled base classes, our model that is composed of a feature-extractor, a feature attention highlight module as well as a two-stage detection backend can quickly adapt to novel classes. The pre-trained feature extractor whose parameters are shared produces general features. While the feature attention highlight module is designed to be light-weighted and simple in order to fit the few-shot cases. Although it is simple, the information provided by it in a serial way is helpful to make the general features to be specific for few-shot objects. Then the object-specific features are delivered to the two-stage detection backend for the detection results. The experiments demonstrate the effectiveness of the proposed method for few-shot cases.
翻訳日:2022-10-22 07:42:34 公開日:2020-09-03
# シーンの時間的挙動を利用して検出精度を向上させる単一ステージ物体検出器の修正法

Modification method for single-stage object detectors that allows to exploit the temporal behaviour of a scene to improve detection accuracy ( http://arxiv.org/abs/2009.01617v1 )

ライセンス: Link先を確認
Menua Gevorgyan(参考訳) YOLOやSSDのような単一ステージの汎用物体検出ニューラルネットワークの簡単な修正手法を提案し,検出パイプライン内のシーンの時間的挙動を利用して映像データの検出精度を向上させる。 本手法を用いることで,特に隠蔽・隠蔽対象に対して,基地ネットワークの検出精度を大幅に向上できることが示唆された。 修正されたネットワークは、未修正のネットワークよりも、より信頼性の高い隠されたオブジェクトを検出する傾向にある。 付加的なアノテートデータを必要としない改良型ネットワークのトレーニングを可能にする弱教師付きトレーニング手法を提案する。

A simple modification method for single-stage generic object detection neural networks, such as YOLO and SSD, is proposed, which allows for improving the detection accuracy on video data by exploiting the temporal behavior of the scene in the detection pipeline. It is shown that, using this method, the detection accuracy of the base network can be considerably improved, especially for occluded and hidden objects. It is shown that a modified network is more prone to detect hidden objects with more confidence than an unmodified one. A weakly supervised training method is proposed, which allows for training a modified network without requiring any additional annotated data.
翻訳日:2022-10-22 07:42:19 公開日:2020-09-03
# orgFAQ: 組織的FAQとユーザ質問の新しいデータセットと分析

orgFAQ: A New Dataset and Analysis on Organizational FAQs and User Questions ( http://arxiv.org/abs/2009.01460v1 )

ライセンス: Link先を確認
Guy Lev, Michal Shmueli-Scheuer, Achiya Jerbi, David Konopnicki(参考訳) 頻繁な質問(faq) webページは、ユーザのために組織によって作成されます。 FAQは、ユーザの質問に答えるために、いくつかのシナリオで使用される。 一方,FAQの内容はユーザによる質問によって影響を受ける。 この分野での研究を促進するために、いくつかのFAQデータセットが存在する。 しかし,コミュニティWebサイトから収集されているため,FAQに関連する課題を組織的な文脈で正しく表現することはできない。 そこで私たちは,Jobsドメイン内の組織のFAQ Webページから抽出した,6988ドルのユーザ質問と1579ドルの対応するFAQからなる,新たなデータセットであるorgFAQをリリースした。 本稿では,このようなFAQの特性を解析し,ジョブドメインから関連するタスクに利用することで,新たなデータセットの有用性を実証する。 また、異なるドメイン — COVID-19パンデミック — のタスクにおいて、orgFAQデータセットの価値も示します。

Frequently Asked Questions (FAQ) webpages are created by organizations for their users. FAQs are used in several scenarios, e.g., to answer user questions. On the other hand, the content of FAQs is affected by user questions by definition. In order to promote research in this field, several FAQ datasets exist. However, we claim that being collected from community websites, they do not correctly represent challenges associated with FAQs in an organizational context. Thus, we release orgFAQ, a new dataset composed of $6988$ user questions and $1579$ corresponding FAQs that were extracted from organizations' FAQ webpages in the Jobs domain. In this paper, we provide an analysis of the properties of such FAQs, and demonstrate the usefulness of our new dataset by utilizing it in a relevant task from the Jobs domain. We also show the value of the orgFAQ dataset in a task of a different domain - the COVID-19 pandemic.
翻訳日:2022-10-22 07:36:01 公開日:2020-09-03
# IWPT 2020共有タスクにおけるADAPT拡張依存性パーザ

The ADAPT Enhanced Dependency Parser at the IWPT 2020 Shared Task ( http://arxiv.org/abs/2009.01712v1 )

ライセンス: Link先を確認
James Barry, Joachim Wagner, Jennifer Foster(参考訳) 本稿では,2020 IWPT共有タスクのためのADAPTシステムについて述べる。 UDPipe と UDPipe-Future を用いたパイプラインアプローチを実装し,初期アノテーションのレベルを提供する。 拡張依存グラフは、グラフベースのセマンティック依存構文解析器によって作成されるか、あるいは小さなヒューリスティックセットを使用して基本木から構築される。 その結果,ほとんどの言語では,意味的依存関係パーサが拡張された依存関係を解析するタスクにうまく適用できることがわかった。 残念なことに、パイプラインアプローチの一部としてコネクテッドグラフを保証することができず、私たちのコンペティションは、公式の評価スコアを著しく損なうバリデーションスクリプトをパスするラスト分間の修正に依存していました。 公式評価では,マクロ平均的elis f1は67.23で,ツリーバンクの平均は67.49であった。 その後、私たちは独自のグラフ接続修正を実装し、その結果79.53(言語平均)または79.76(ツリーバンク平均)のスコアを得ました。

We describe the ADAPT system for the 2020 IWPT Shared Task on parsing enhanced Universal Dependencies in 17 languages. We implement a pipeline approach using UDPipe and UDPipe-future to provide initial levels of annotation. The enhanced dependency graph is either produced by a graph-based semantic dependency parser or is built from the basic tree using a small set of heuristics. Our results show that, for the majority of languages, a semantic dependency parser can be successfully applied to the task of parsing enhanced dependencies. Unfortunately, we did not ensure a connected graph as part of our pipeline approach and our competition submission relied on a last-minute fix to pass the validation script which harmed our official evaluation scores significantly. Our submission ranked eighth in the official evaluation with a macro-averaged coarse ELAS F1 of 67.23 and a treebank average of 67.49. We later implemented our own graph-connecting fix which resulted in a score of 79.53 (language average) or 79.76 (treebank average), which would have placed fourth in the competition evaluation.
翻訳日:2022-10-22 07:35:21 公開日:2020-09-03
# オンライン系列広告のための隠れ状態の推測学習

Learning to Infer User Hidden States for Online Sequential Advertising ( http://arxiv.org/abs/2009.01453v1 )

ライセンス: Link先を確認
Zhaoqing Peng, Junqi Jin, Lan Luo, Yaodong Yang, Rui Luo, Jun Wang, Weinan Zhang, Haiyang Xu, Miao Xu, Chuan Yu, Tiejian Luo, Han Li, Jian Xu, Kun Gai(参考訳) オンライン広告の購入を促進するためには, 性能と解釈が重要である逐次広告戦略を最適化することが, 広告主の大きな関心事である。 既存の深層強化学習法における解釈可能性の欠如は、その戦略を理解し、診断し、さらに最適化することが容易ではない。 本稿では,これらの問題に対処するディープインテントシーケンス広告(DISA)手法を提案する。 解釈可能性の鍵となる部分は、消費者の購入意図を理解することである。 本稿では,この意図を潜伏変数としてモデル化し,その問題を可観測性のあるマルコフ決定過程 (POMDP) として定式化する。 大規模産業用オフラインおよびオンライン実験により,本手法は複数のベースラインに対して優れた性能を示す。 推定された隠れ状態は解析され、結果は推論の合理性を証明する。

To drive purchase in online advertising, it is of the advertiser's great interest to optimize the sequential advertising strategy whose performance and interpretability are both important. The lack of interpretability in existing deep reinforcement learning methods makes it not easy to understand, diagnose and further optimize the strategy. In this paper, we propose our Deep Intents Sequential Advertising (DISA) method to address these issues. The key part of interpretability is to understand a consumer's purchase intent which is, however, unobservable (called hidden states). In this paper, we model this intention as a latent variable and formulate the problem as a Partially Observable Markov Decision Process (POMDP) where the underlying intents are inferred based on the observable behaviors. Large-scale industrial offline and online experiments demonstrate our method's superior performance over several baselines. The inferred hidden states are analyzed, and the results prove the rationality of our inference.
翻訳日:2022-10-22 07:34:09 公開日:2020-09-03
# 会話型AIサービスにおけるユーザ意図認識と要求緩和手法

User Intention Recognition and Requirement Elicitation Method for Conversational AI Services ( http://arxiv.org/abs/2009.01509v1 )

ライセンス: Link先を確認
Junrui Tian, Zhiying Tu, Zhongjie Wang, Xiaofei Xu, Min Liu(参考訳) 近年、チャットボットは利用者にサービスの利用を誘導する新しいタイプのインテリジェント端末となっている。 しかし、提供するサービスはユーザーが期待したり、最も期待したりするサービスではないと批判されている。 この欠陥は, 情報非対称性に起因するユーザの要求表現の不完全性と不確実性, サービスリソースの多様性がサービス選択の難しさにつながる, という2つの問題に起因する。 会話型ボットは典型的なメッシュデバイスであるため、ユーザ要求を導き出す最も効果的な方法は、ガイド付きマルチラウンドq$\&$aである。 もちろん、ラウンドが多すぎる複雑なq$&$aは退屈であり、常にユーザーエクスペリエンスが悪くなる。 そこで本研究では,できるだけ少ないラウンドでユーザ要求を正確に獲得することを目指している。 これを実現するために,ファジィ要件推論のための知識グラフ(KG)に基づくユーザ意図認識手法を開発し,対話ポリシー生成のためのグラニュラーコンピューティングに基づく要件適用手法を提案した。 実験の結果,この2つの手法は会話ラウンド数を効果的に減らし,ユーザの意図を迅速かつ正確に識別できることがわかった。

In recent years, chat-bot has become a new type of intelligent terminal to guide users to consume services. However, it is criticized most that the services it provides are not what users expect or most expect. This defect mostly dues to two problems, one is that the incompleteness and uncertainty of user's requirement expression caused by the information asymmetry, the other is that the diversity of service resources leads to the difficulty of service selection. Conversational bot is a typical mesh device, so the guided multi-rounds Q$\&$A is the most effective way to elicit user requirements. Obviously, complex Q$\&$A with too many rounds is boring and always leads to bad user experience. Therefore, we aim to obtain user requirements as accurately as possible in as few rounds as possible. To achieve this, a user intention recognition method based on Knowledge Graph (KG) was developed for fuzzy requirement inference, and a requirement elicitation method based on Granular Computing was proposed for dialog policy generation. Experimental results show that these two methods can effectively reduce the number of conversation rounds, and can quickly and accurately identify the user intention.
翻訳日:2022-10-22 07:33:53 公開日:2020-09-03
# sedro: 開発ロボティクスのためのシミュレーション環境

SEDRo: A Simulated Environment for Developmental Robotics ( http://arxiv.org/abs/2009.01810v1 )

ライセンス: Link先を確認
Aishwarya Pothula, Md Ashaduzzaman Rubel Mondol, Sanath Narasimhan, Sm Mazharul Islam, Deokgun Park(参考訳) アプリケーション固有のモデルに目覚ましい進歩があったとしても、人間のような方法で学習し、複数のタスクをこなせるモデルを構築する方法については、まだ知識がありません。 人間のような方法で学ぶためには、人間に匹敵する多様な体験を提供する必要がある。 本稿では,開発ロボティクス(SEDRo)のシミュレーション環境を構築するための取り組みについて紹介する。 SEDRoは胎児から12ヶ月までの多様な人間の体験を提供する。 発達心理学に基づく一連のシミュレーションテストは、学習モデルの進捗を評価するために使用される。 我々は、SEDRoの参入コストを下げ、開発ロボティクスコミュニティにおける研究を促進することを期待する。

Even with impressive advances in application-specific models, we still lack knowledge about how to build a model that can learn in a human-like way and do multiple tasks. To learn in a human-like way, we need to provide a diverse experience that is comparable to humans. In this paper, we introduce our ongoing effort to build a simulated environment for developmental robotics (SEDRo). SEDRo provides diverse human experiences ranging from those of a fetus to a 12th-month-old. A series of simulated tests based on developmental psychology will be used to evaluate the progress of a learning model. We anticipate SEDRo to lower the cost of entry and facilitate research in the developmental robotics community.
翻訳日:2022-10-22 07:33:21 公開日:2020-09-03
# 適応データ拡張を用いた物理整合データ駆動波形インバージョン

Physics-Consistent Data-driven Waveform Inversion with Adaptive Data Augmentation ( http://arxiv.org/abs/2009.01807v1 )

ライセンス: Link先を確認
Ren\'an Rojas-G\'omez, Jihyun Yang, Youzuo Lin, James Theiler, Brendt Wohlberg(参考訳) 地震波フルウェーブフォームインバージョン (FWI) は、地下物理特性の詳細な推定を行う非線形計算イメージング技術である。 FWI問題を解くことは、その不備と高い計算コストのために困難である。 本研究では,物理モデルとデータ駆動手法を組み合わせた新しいハイブリッド計算手法を開発した。 特に、トレーニングセットの表現性を向上するだけでなく、重要な制御物理をトレーニングプロセスに組み込むことで、インバージョン精度を向上させるデータ拡張戦略を開発する。 本手法の有効性を検証するため, カリフォルニア州キンベリナの炭素沈殿場に構築された地下地質モデルから得られた弾性弾性波動データに適用した。 物理一貫性のあるデータ駆動逆変換法と純粋に物理ベースと純粋にデータ駆動の両手法を比較し、この手法がより精度が高く一般化能力が高いことを観察する。

Seismic full-waveform inversion (FWI) is a nonlinear computational imaging technique that can provide detailed estimates of subsurface geophysical properties. Solving the FWI problem can be challenging due to its ill-posedness and high computational cost. In this work, we develop a new hybrid computational approach to solve FWI that combines physics-based models with data-driven methodologies. In particular, we develop a data augmentation strategy that can not only improve the representativity of the training set but also incorporate important governing physics into the training process and therefore improve the inversion accuracy. To validate the performance, we apply our method to synthetic elastic seismic waveform data generated from a subsurface geologic model built on a carbon sequestration site at Kimberlina, California. We compare our physics-consistent data-driven inversion method to both purely physics-based and purely data-driven approaches and observe that our method yields higher accuracy and greater generalization ability.
翻訳日:2022-10-22 07:27:27 公開日:2020-09-03
# 反実的説明からのモデル抽出

Model extraction from counterfactual explanations ( http://arxiv.org/abs/2009.01884v1 )

ライセンス: Link先を確認
Ulrich A\"ivodji, Alexandre Bolot, S\'ebastien Gambs(参考訳) ポストホックな説明技法は、ブラックボックス機械学習モデルがどのように結果を生み出すかを説明するのに使用できる後部手法を指す。 ポストホックな説明手法の中では、この目的を達成するための最も一般的な方法の1つに反事実的説明がある。 特に、ブラックボックスモデルで使用される最も重要な特徴を強調するだけでなく、異なる結果を得たデータインスタンスの形式で実行可能な説明をユーザに提供します。 それにもかかわらず、モデル自体に関する非自明な情報を漏らし、プライバシーの問題を引き起こしている。 本研究では,反実的説明による情報を利用して,高忠実かつ高精度なモデル抽出攻撃を構築する方法を示す。 より正確には、我々の攻撃により、敵は、その反事実的説明にアクセスして、ターゲットモデルの忠実なコピーを構築することができる。 実世界のデータセットでトレーニングされたブラックボックスモデルに対する提案手法の実証的評価は、低クエリ予算でも高い忠実性と高い精度の抽出を達成可能であることを示している。

Post-hoc explanation techniques refer to a posteriori methods that can be used to explain how black-box machine learning models produce their outcomes. Among post-hoc explanation techniques, counterfactual explanations are becoming one of the most popular methods to achieve this objective. In particular, in addition to highlighting the most important features used by the black-box model, they provide users with actionable explanations in the form of data instances that would have received a different outcome. Nonetheless, by doing so, they also leak non-trivial information about the model itself, which raises privacy issues. In this work, we demonstrate how an adversary can leverage the information provided by counterfactual explanations to build high-fidelity and high-accuracy model extraction attacks. More precisely, our attack enables the adversary to build a faithful copy of a target model by accessing its counterfactual explanations. The empirical evaluation of the proposed attack on black-box models trained on real-world datasets demonstrates that they can achieve high-fidelity and high-accuracy extraction even under low query budgets.
翻訳日:2022-10-22 07:27:11 公開日:2020-09-03
# 変形可能な多様体の計算解析:幾何学的モデリングからディープラーニングへ

Computational Analysis of Deformable Manifolds: from Geometric Modelling to Deep Learning ( http://arxiv.org/abs/2009.01786v1 )

ライセンス: Link先を確認
Stefan C Schonsheck(参考訳) レオ・トルストイ(Leo Tolstoy)は、彼の有名な小説『Anna Karenina』で、"Happy family are all alike; all unhappy family are unhappy in their own way"と題して発表した。 しかし、不幸の源となるのではなく、非平坦空間の多様性が豊富な研究領域を提供することを示す。 いわゆるビッグデータの時代と、規模が大きくなる社会や科学のデータベースの普及は、高次元データを効率的に処理し、分析し、さらに生成するアルゴリズムの必要性を招いている。 しかし、次元の呪いは、多くの古典的アプローチがこれらの問題のサイズに関してうまくスケールしないという事実をもたらす。 これらの悪影響を避ける方法の1つは、コヒーレントデータの幾何学的構造を利用することである。 本稿では形状処理とデータ解析のための幾何学的手法を検討する。 より具体的には、計算微分幾何学、変分PDEモデリング、深層学習など、多種多様な数学的ツールを用いて、その上に支持される多様体や信号を表現する技術について研究する。 まず,変分モデルによる非等尺形状マッチングについて検討する。 次に、多様体上の平行輸送のアイデアを用いて、畳み込みと畳み込みニューラルネットワークを変形可能な多様体に一般化する。 最後に,データの本質的幾何学とトポロジーを捉えるための新しい自己回帰モデルを提案する。 この作業を通じて、私たちは、仕事の動機付けと結果分析の両面で、コンピュータ対応の考え方を使います。

Leo Tolstoy opened his monumental novel Anna Karenina with the now famous words: Happy families are all alike; every unhappy family is unhappy in its own way A similar notion also applies to mathematical spaces: Every flat space is alike; every unflat space is unflat in its own way. However, rather than being a source of unhappiness, we will show that the diversity of non-flat spaces provides a rich area of study. The genesis of the so-called big data era and the proliferation of social and scientific databases of increasing size has led to a need for algorithms that can efficiently process, analyze and, even generate high dimensional data. However, the curse of dimensionality leads to the fact that many classical approaches do not scale well with respect to the size of these problems. One technique to avoid some of these ill-effects is to exploit the geometric structure of coherent data. In this thesis, we will explore geometric methods for shape processing and data analysis. More specifically, we will study techniques for representing manifolds and signals supported on them through a variety of mathematical tools including, but not limited to, computational differential geometry, variational PDE modeling, and deep learning. First, we will explore non-isometric shape matching through variational modeling. Next, we will use ideas from parallel transport on manifolds to generalize convolution and convolutional neural networks to deformable manifolds. Finally, we conclude by proposing a novel auto-regressive model for capturing the intrinsic geometry and topology of data. Throughout this work, we will use the idea of computing correspondences as a though-line to both motivate our work and analyze our results.
翻訳日:2022-10-22 07:26:20 公開日:2020-09-03
# x線散乱画像の多属性学習モデルのインタラクティブな視覚的研究

Interactive Visual Study of Multiple Attributes Learning Model of X-Ray Scattering Images ( http://arxiv.org/abs/2009.02256v1 )

ライセンス: Link先を確認
Xinyi Huang, Suphanut Jamonnak, Ye Zhao, Boyu Wang, Minh Hoai, Kevin Yager, Wei Xu(参考訳) ディープラーニングのための既存のインタラクティブな視覚化ツールは、主に、自然画像を扱うニューラルネットワークモデルのトレーニング、デバッグ、洗練に適用される。 しかし、複数の構造特性を持つX線画像分類の特定の応用には視覚分析ツールがない。 本稿では,x線散乱画像に適用した複数の属性学習モデルを視覚的に研究するための対話型システムを提案する。 モデル予測出力、実際のラベル、そして発見されたニューラルネットワークの特徴空間に基づいて定義された埋め込み空間における、この重要なタイプの科学的イメージを、ドメイン科学者がインタラクティブに探索することができる。 ユーザは、インスタンスイメージとクラスタを柔軟に選択し、属性の特定のビジュアル表現について比較することができる。 この調査は、属性間の相互関係に関連するモデルパフォーマンスの顕在化によって導かれ、学習の正確性と有効性にしばしば影響を及ぼす。 したがって、このシステムはドメインサイエンティストをサポートし、トレーニングデータセットとモデルを改善し、疑問のある属性ラベルを見つけ、外れやすい画像や素早いデータクラスタを識別する。 ケーススタディと科学者のフィードバックは、その機能と有用性を示している。

Existing interactive visualization tools for deep learning are mostly applied to the training, debugging, and refinement of neural network models working on natural images. However, visual analytics tools are lacking for the specific application of x-ray image classification with multiple structural attributes. In this paper, we present an interactive system for domain scientists to visually study the multiple attributes learning models applied to x-ray scattering images. It allows domain scientists to interactively explore this important type of scientific images in embedded spaces that are defined on the model prediction output, the actual labels, and the discovered feature space of neural networks. Users are allowed to flexibly select instance images, their clusters, and compare them regarding the specified visual representation of attributes. The exploration is guided by the manifestation of model performance related to mutual relationships among attributes, which often affect the learning accuracy and effectiveness. The system thus supports domain scientists to improve the training dataset and model, find questionable attributes labels, and identify outlier images or spurious data clusters. Case studies and scientists feedback demonstrate its functionalities and usefulness.
翻訳日:2022-10-22 07:25:11 公開日:2020-09-03
# TopoMap: 高次元データの投影を保存する0次元ホモロジー

TopoMap: A 0-dimensional Homology Preserving Projection of High-Dimensional Data ( http://arxiv.org/abs/2009.01512v1 )

ライセンス: Link先を確認
Harish Doraiswamy and Julien Tierny and Paulo J. S. Silva and Luis Gustavo Nonato and Claudio Silva(参考訳) 多次元投影は高次元データ解析と可視化のための基本的なツールである。 例外は少ないが、射影技術は高次元空間から視覚空間へデータをマッピングし、例えばユークリッド距離のような相似性(類似性)の測定値を保存するように設計されている。 実際、データの異なる側面を好むように設計された数学的定式化を採用するが、ほとんどの多次元射影法は距離やデータオブジェクト間の近接関係といった幾何学的性質をカプセル化する異種性対策を保とうとしている。 しかし、幾何学的関係は射影で保存される唯一の興味深い性質ではない。 例えば、クラスターや外れ値といった特定の構造の解析は、写像過程が連結成分やループのような位相不変量に対する保証を与えるならばより確実に行うことができる。 本稿では,マッピングプロセス中に位相保証を行う新しい投影手法であるtopomapを提案する。 特に,高次元空間から視覚空間へのマッピングを行い,高次元データのリップス濾過の0次元パーシステンスダイアグラムを保ちながら,元のデータと投影データに対して同一の連結成分を生成する。 提案事例では, トポマップが提供するトポロジカル保証は, 視覚解析プロセスに信頼性をもたらすだけでなく, その他の投影法の評価を支援するためにも利用できることを示した。

Multidimensional Projection is a fundamental tool for high-dimensional data analytics and visualization. With very few exceptions, projection techniques are designed to map data from a high-dimensional space to a visual space so as to preserve some dissimilarity (similarity) measure, such as the Euclidean distance for example. In fact, although adopting distinct mathematical formulations designed to favor different aspects of the data, most multidimensional projection methods strive to preserve dissimilarity measures that encapsulate geometric properties such as distances or the proximity relation between data objects. However, geometric relations are not the only interesting property to be preserved in a projection. For instance, the analysis of particular structures such as clusters and outliers could be more reliably performed if the mapping process gives some guarantee as to topological invariants such as connected components and loops. This paper introduces TopoMap, a novel projection technique which provides topological guarantees during the mapping process. In particular, the proposed method performs the mapping from a high-dimensional space to a visual space, while preserving the 0-dimensional persistence diagram of the Rips filtration of the high-dimensional data, ensuring that the filtrations generate the same connected components when applied to the original as well as projected data. The presented case studies show that the topological guarantee provided by TopoMap not only brings confidence to the visual analytic process but also can be used to assist in the assessment of other projection methods.
翻訳日:2022-10-22 07:24:55 公開日:2020-09-03
# アメリカ手話におけるグローバルボディ構成のモデル化

Modeling Global Body Configurations in American Sign Language ( http://arxiv.org/abs/2009.01468v1 )

ライセンス: Link先を確認
Nicholas Wilkins, Beck Cordes Galbraith, Ifeoma Nwogu(参考訳) アメリカ手話(アメリカン手話、英: american sign language、asl)は、アメリカ合衆国で4番目によく使われる言語であり、アメリカ合衆国やカナダの英語圏でよく使われる言語である。 残念ながら、最近まで、ASLはほとんど研究されなかった。 これは、1960年にウィリアム・ストコーが出版するまで、言語としての認識が遅れたことによる。 限られたデータは、ASLの研究と計算モデリングの長年の障害であった。 大規模データセットの欠如は、ニューラルネットワーク翻訳など、現代の機械学習技術の多くをASLに適用することを禁じている。 加えて、手話(つまりビデオ)をキャプチャするために必要なモダリティは、自然な設定では複雑である(背景ノイズ、動きのぼやけ、次元の呪いを扱う必要がある)。 最後に、英語などの話し言葉と比較して、ASLの言語学について限定的な研究がなされている。 確率図形モデル (PGM) を用いたLiddell と Johnson's Movement-Hold (MH) Model の簡易版を実現する。 ASLは3つの流線型ASLシグナから収集したデータセットである。 我々はPGMを他のモデルに対して評価し、ASLをモデル化する能力を決定する。 最後に、PGMの様々な側面を解釈し、ASL音声学に関する結論を引き出す。 この論文の主な貢献は

American Sign Language (ASL) is the fourth most commonly used language in the United States and is the language most commonly used by Deaf people in the United States and the English-speaking regions of Canada. Unfortunately, until recently, ASL received little research. This is due, in part, to its delayed recognition as a language until William C. Stokoe's publication in 1960. Limited data has been a long-standing obstacle to ASL research and computational modeling. The lack of large-scale datasets has prohibited many modern machine-learning techniques, such as Neural Machine Translation, from being applied to ASL. In addition, the modality required to capture sign language (i.e. video) is complex in natural settings (as one must deal with background noise, motion blur, and the curse of dimensionality). Finally, when compared with spoken languages, such as English, there has been limited research conducted into the linguistics of ASL. We realize a simplified version of Liddell and Johnson's Movement-Hold (MH) Model using a Probabilistic Graphical Model (PGM). We trained our model on ASLing, a dataset collected from three fluent ASL signers. We evaluate our PGM against other models to determine its ability to model ASL. Finally, we interpret various aspects of the PGM and draw conclusions about ASL phonetics. The main contributions of this paper are
翻訳日:2022-10-22 07:18:26 公開日:2020-09-03
# 現実を橋渡しする一般的なアプローチ

A general approach to bridge the reality-gap ( http://arxiv.org/abs/2009.01865v1 )

ライセンス: Link先を確認
Michael Lomnitz, Zigfried Hampel-Arias, Nina Lopatina, Felipe A. Mejia(参考訳) 現実世界で機械学習モデルを採用するには大量のデータを収集する必要がある。 これを回避する一般的なアプローチは、大量のラベル付きデータを持つ既存の類似のデータセットを活用することである。 しかし、これらの標準分布で訓練されたモデルは、実世界への移動が容易ではない。 ドメイン適応と転送学習は、この「現実のギャップ」を突破するためにしばしば使用されるが、どちらもかなりの量の実世界のデータを必要とする。 本稿では、より一般的なアプローチについて論じる。我々は、訓練された機械学習モデルを自然に適用できる標準分布に任意の画像をもたらす一般的な変換の学習を提案する。 この変換は教師なしのレジームでトレーニングされ、データ拡張を利用して画像のオフカノニカルな例を生成し、ディープラーニングモデルをトレーニングして元のコンパニオンを回復する。 我々は,事前学習したImageNet分類器を用いて,この変換の性能を定量化し,歪んだデータセットの性能損失の半分を回復できることを示した。 次に、異なる照明条件下で画像の印刷と撮影によって収集した実世界のデータセット上で、事前学習した画像ネットモデルに対するこのアプローチの有効性を検証する。

Employing machine learning models in the real world requires collecting large amounts of data, which is both time consuming and costly to collect. A common approach to circumvent this is to leverage existing, similar data-sets with large amounts of labelled data. However, models trained on these canonical distributions do not readily transfer to real-world ones. Domain adaptation and transfer learning are often used to breach this "reality gap", though both require a substantial amount of real-world data. In this paper we discuss a more general approach: we propose learning a general transformation to bring arbitrary images towards a canonical distribution where we can naively apply the trained machine learning models. This transformation is trained in an unsupervised regime, leveraging data augmentation to generate off-canonical examples of images and training a Deep Learning model to recover their original counterpart. We quantify the performance of this transformation using pre-trained ImageNet classifiers, demonstrating that this procedure can recover half of the loss in performance on the distorted data-set. We then validate the effectiveness of this approach on a series of pre-trained ImageNet models on a real world data set collected by printing and photographing images in different lighting conditions.
翻訳日:2022-10-22 07:18:04 公開日:2020-09-03
# HiFiSinger:高忠実性ニューラルシンキング音声合成を目指して

HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis ( http://arxiv.org/abs/2009.01776v1 )

ライセンス: Link先を確認
Jiawei Chen, Xu Tan, Jian Luan, Tao Qin, Tie-Yan Liu(参考訳) 高忠実な歌声は通常、表現と感情を伝えるために高いサンプリングレート(48kHzなど)を必要とする。 しかし、サンプリングレートの上昇は、より広い周波数帯域と長い波形シーケンスを引き起こし、周波数領域と時間領域の両方で歌声合成(SVS)の課題を投げかける。 サンプリングレートが小さい従来のSVSシステムでは、上記の課題に対処できない。 本稿では,高忠実度歌声に対するSVSシステムであるHiFiSingerを開発する。 HiFiSingerはFastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成され、高速なトレーニングと推論と高い音声品質を確保する。 高サンプリングレート(広帯域帯と長波形)による歌唱モデリングの難しさに対処するため,音響モデルとボコーダの両方にマルチスケールの対角訓練を導入し,歌唱モデリングを改善する。 具体的には 1) 高サンプリングレートによる広い周波数域に対応するために,80次元メル周波数を複数のサブバンドに分割し,各サブバンドを別個の識別器でモデル化する,メルスペクトル生成のための新しいサブ周波数GAN(SF-GAN)を提案する。 2) より長い波形列を高サンプリングレートでモデル化するために, 波形生成のための複数長GAN(ML-GAN)を提案し, 異なる識別器を用いて波形列の異なる長さをモデル化する。 3) また,f0(ピッチ)とv/uv(有声/無声フラグ)を音響的特徴として加えたり,メルスペクトログラムに適した窓/ホップサイズを選択したり,vocoderの長母音モデルにおける受容野を増加させたりといった,高忠実度音声に不可欠な設計や発見についても紹介する。 HiFiSingerは、48kHz/24kHzのベースラインで0.32/0.44 MOS、以前のSVSシステムで0.83 MOSの高音質な歌声を合成する。

High-fidelity singing voices usually require higher sampling rate (e.g., 48kHz) to convey expression and emotion. However, higher sampling rate causes the wider frequency band and longer waveform sequences and throws challenges for singing voice synthesis (SVS) in both frequency and time domains. Conventional SVS systems that adopt small sampling rate cannot well address the above challenges. In this paper, we develop HiFiSinger, an SVS system towards high-fidelity singing voice. HiFiSinger consists of a FastSpeech based acoustic model and a Parallel WaveGAN based vocoder to ensure fast training and inference and also high voice quality. To tackle the difficulty of singing modeling caused by high sampling rate (wider frequency band and longer waveform), we introduce multi-scale adversarial training in both the acoustic model and vocoder to improve singing modeling. Specifically, 1) To handle the larger range of frequencies caused by higher sampling rate, we propose a novel sub-frequency GAN (SF-GAN) on mel-spectrogram generation, which splits the full 80-dimensional mel-frequency into multiple sub-bands and models each sub-band with a separate discriminator. 2) To model longer waveform sequences caused by higher sampling rate, we propose a multi-length GAN (ML-GAN) for waveform generation to model different lengths of waveform sequences with separate discriminators. 3) We also introduce several additional designs and findings in HiFiSinger that are crucial for high-fidelity voices, such as adding F0 (pitch) and V/UV (voiced/unvoiced flag) as acoustic features, choosing an appropriate window/hop size for mel-spectrogram, and increasing the receptive field in vocoder for long vowel modeling. Experiment results show that HiFiSinger synthesizes high-fidelity singing voices with much higher quality: 0.32/0.44 MOS gain over 48kHz/24kHz baseline and 0.83 MOS gain over previous SVS systems.
翻訳日:2022-10-22 07:17:21 公開日:2020-09-03
# 何を聴くかを知る: 音声表現の深層学習への早期の注意

Knowing What to Listen to: Early Attention for Deep Speech Representation Learning ( http://arxiv.org/abs/2009.01822v1 )

ライセンス: Link先を確認
Amirhossein Hajavi, Ali Etemad(参考訳) 近年,ディープラーニング技術は音声処理を大幅に改善している。 ディープラーニングモデルによって抽出された音声表現は、音声認識、話者認識、音声感情認識といった幅広いタスクで使用されている。 注意モデルは、ディープラーニングモデルを改善する上で重要な役割を果たす。 しかし、現在の注意機構は、きめ細かい情報項目には対応できない。 本稿では,音声信号に対するファイングラファイド早期周波数注意(FEFA)を提案する。 このモデルは、周波数ビンほど小さな情報アイテムにフォーカスすることができる。 話者認識と音声感情認識の2つのタスクにおいて提案したモデルを評価する。 実験にはVoxCelebとIEMOCAPという2つの広く使われている公開データセットが使用されている。 このモデルは、バックボーンネットワークとしていくつかの顕著なディープモデル上に実装され、元のネットワークや他の関連する作業と比較してパフォーマンスへの影響を評価する。 我々の実験は、異なるCNNアーキテクチャにFEFAを追加することで、話者認識タスクに新しい最先端のタスクを設定することさえも、かなりのマージンでパフォーマンスが一貫して改善されることを示します。 また,ロバスト性が向上し,バックボーンネットワークに比べて感度が低下する,さまざまなノイズレベルに対するモデルもテストした。

Deep learning techniques have considerably improved speech processing in recent years. Speech representations extracted by deep learning models are being used in a wide range of tasks such as speech recognition, speaker recognition, and speech emotion recognition. Attention models play an important role in improving deep learning models. However current attention mechanisms are unable to attend to fine-grained information items. In this paper we propose the novel Fine-grained Early Frequency Attention (FEFA) for speech signals. This model is capable of focusing on information items as small as frequency bins. We evaluate the proposed model on two popular tasks of speaker recognition and speech emotion recognition. Two widely used public datasets, VoxCeleb and IEMOCAP, are used for our experiments. The model is implemented on top of several prominent deep models as backbone networks to evaluate its impact on performance compared to the original networks and other related work. Our experiments show that by adding FEFA to different CNN architectures, performance is consistently improved by substantial margins, even setting a new state-of-the-art for the speaker recognition task. We also tested our model against different levels of added noise showing improvements in robustness and less sensitivity compared to the backbone networks.
翻訳日:2022-10-22 07:16:42 公開日:2020-09-03
# HOL4におけるツリーニューラルネットワーク

Tree Neural Networks in HOL4 ( http://arxiv.org/abs/2009.01827v1 )

ライセンス: Link先を確認
Thibault Gauthier(参考訳) 本稿では,実証アシスタントHOL4におけるツリーニューラルネットワークの実装について述べる。 彼らのアーキテクチャは、ドメインが式の集合である関数の近似に自然に適合する。 計算式の評価や命題公式の真偽推定のタスクにおいて,実装の性能を測定し,他の機械学習予測子と比較する。

We present an implementation of tree neural networks within the proof assistant HOL4. Their architecture makes them naturally suited for approximating functions whose domain is a set of formulas. We measure the performance of our implementation and compare it with other machine learning predictors on the tasks of evaluating arithmetical expressions and estimating the truth of propositional formulas.
翻訳日:2022-10-22 07:16:25 公開日:2020-09-03
# 局所接続を持つReLUネットワークの普遍関数近似器の誤差推定

Error estimate for a universal function approximator of ReLU network with a local connection ( http://arxiv.org/abs/2009.01461v1 )

ライセンス: Link先を確認
Jae-Mo Kang and Sunghwan Moon(参考訳) ニューラルネットワークは、幅広いタスクで高いパフォーマンスを示しているが、パフォーマンスを改善するためにさらなる研究が必要である。 我々は、CNNなどの多種多様なニューラルネットワークを説明するために、局所的な接続で特定のニューラルネットワークアーキテクチャの近似誤差を解析し、完全に接続されたネットワークよりも高いアプリケーションで解析する。 私たちの誤差推定は、隠れた層の深さを制御するパラメータと、隠れた層の幅を制御するパラメータの2つに依存します。

Neural networks have shown high successful performance in a wide range of tasks, but further studies are needed to improve its performance. We analyze the approximation error of the specific neural network architecture with a local connection and higher application than one with the full connection because the local-connected network can be used to explain diverse neural networks such as CNNs. Our error estimate depends on two parameters: one controlling the depth of the hidden layer, and the other, the width of the hidden layers.
翻訳日:2022-10-22 07:16:08 公開日:2020-09-03
# CAGNN:教師なしグラフ表現学習のためのクラスタ対応グラフニューラルネットワーク

CAGNN: Cluster-Aware Graph Neural Networks for Unsupervised Graph Representation Learning ( http://arxiv.org/abs/2009.01674v1 )

ライセンス: Link先を確認
Yanqiao Zhu and Yichen Xu and Feng Yu and Shu Wu and Liang Wang(参考訳) 教師なしグラフ表現学習は、グラフトポロジ構造とノード属性の特徴を保存しながら、教師なしの低次元ノード埋め込みを学習することを目的としている。 従来のグラフニューラルネットワーク(gnn)は、実世界のグラフデータではアクセスできない多くのラベル付きノードを必要とする。 本稿では,自己教師あり手法を用いた教師なしグラフ表現学習のためのクラスタ対応グラフニューラルネットワーク(cagnn)モデルを提案する。 CAGNNでは,ノード埋め込み上でクラスタリングを行い,クラスタ割り当てを予測してモデルパラメータを更新する。 さらに,グラフにはクラス間エッジがしばしば含まれており,近隣ノードからノイズ情報を収集するためにGNNモデルを誤解させる。 さらに,クラス内エッジを強化し,クラスタラベルに基づく異なるクラス間のノード接続を削減し,クラスタ構造を組込み空間に保持することで,グラフトポロジをさらに洗練する。 実世界のデータセットを用いて2つのベンチマークタスクの包括的な実験を行う。 その結果,提案手法は既存のベースライン法よりも優れた性能を示した。 特に,我々のモデルでは,最先端のノードクラスタリングにおける精度が7%以上向上している。

Unsupervised graph representation learning aims to learn low-dimensional node embeddings without supervision while preserving graph topological structures and node attributive features. Previous graph neural networks (GNN) require a large number of labeled nodes, which may not be accessible in real-world graph data. In this paper, we present a novel cluster-aware graph neural network (CAGNN) model for unsupervised graph representation learning using self-supervised techniques. In CAGNN, we perform clustering on the node embeddings and update the model parameters by predicting the cluster assignments. Moreover, we observe that graphs often contain inter-class edges, which mislead the GNN model to aggregate noisy information from neighborhood nodes. We further refine the graph topology by strengthening intra-class edges and reducing node connections between different classes based on cluster labels, which better preserves cluster structures in the embedding space. We conduct comprehensive experiments on two benchmark tasks using real-world datasets. The results demonstrate the superior performance of the proposed model over existing baseline methods. Notably, our model gains over 7% improvements in terms of accuracy on node clustering over state-of-the-arts.
翻訳日:2022-10-22 07:15:59 公開日:2020-09-03
# ネットワーク上のイベントストリームのオンラインコミュニティ検出

Online Community Detection for Event Streams on Networks ( http://arxiv.org/abs/2009.01742v1 )

ライセンス: Link先を確認
Guanhua Fang and Owen G. Ward and Tian Zheng(参考訳) ネットワークモデリングにおける共通の目標は、ノード間に存在する潜在コミュニティ構造を明らかにすることである。 多くの実世界のネットワークでは、観測された接続はストリームとして到着するイベントからなり、エッジを形成するために集約され、時間的動的コンポーネントは無視される。 この時間的動的相互作用を考慮に入れた自然な方法は、コミュニティ検出のためのネットワークモデルの基礎としてポイントプロセスを使用することである。 計算複雑性は、そのようなアプローチの大規模スパースネットワークへのスケーラビリティを阻害する。 この課題を回避するために,ネットワーク上での動的イベント到着の基盤となるコミュニティ構造を,連続時間プロセス潜時ネットワークモデルを用いて学習するための高速なオンライン変分推論アルゴリズムを提案する。 我々はこの手順の損失関数に後悔の意を表し、性能に関する理論的保証を与える。 提案アルゴリズムは,シミュレーション研究と実データの両方を用いて,非オンライン変種に対するコミュニティ回復の観点から,コミュニティ構造に匹敵する性能を有することを示す。 提案フレームワークは,他の一般的なネットワーク構造を組み込むために容易に修正できる。

A common goal in network modeling is to uncover the latent community structure present among nodes. For many real-world networks, observed connections consist of events arriving as streams, which are then aggregated to form edges, ignoring the temporal dynamic component. A natural way to take account of this temporal dynamic component of interactions is to use point processes as the foundation of the network models for community detection. Computational complexity hampers the scalability of such approaches to large sparse networks. To circumvent this challenge, we propose a fast online variational inference algorithm for learning the community structure underlying dynamic event arrivals on a network using continuous-time point process latent network models. We provide regret bounds on the loss function of this procedure, giving theoretical guarantees on performance. The proposed algorithm is illustrated, using both simulation studies and real data, to have comparable performance in terms of community structure in terms of community recovery to non-online variants. Our proposed framework can also be readily modified to incorporate other popular network structures.
翻訳日:2022-10-22 07:15:43 公開日:2020-09-03
# プロセスマイニングと因果機械学習 - イベントログから因果ルールを発見する

Process Mining Meets Causal Machine Learning: Discovering Causal Rules from Event Logs ( http://arxiv.org/abs/2009.01561v1 )

ライセンス: Link先を確認
Zahra Dasht Bozorgi, Irene Teinemaa, Marlon Dumas, Marcello La Rosa, Artem Polyvyanyy(参考訳) 本稿では、ビジネスプロセスのイベントログを分析して、与えられた結果の確率を最大化する治療のケースレベルレコメンデーションを生成するアプローチを提案する。 ユーザはイベントログの属性をコントロール可能かつ非制御可能に分類し、前者はプロセスの実行中に変更可能な属性(可能な処理)に対応する。 我々は,行動ルールマイニング手法を用いて,ある条件下での結果に共起する治療法を同定する。 作用規則は因果関係ではなく相関関係に基づいて生成されるので,特に隆起木を用いた因果学習手法を用いて,共起変数の調整後の結果に高い因果関係を持つ症例のサブグループを発見する。 我々は,ローン申請プロセスのイベントログを用いて,このアプローチの妥当性を検証し,プロセスマイニングの専門家が手作業で作成した推奨事項と比較する。

This paper proposes an approach to analyze an event log of a business process in order to generate case-level recommendations of treatments that maximize the probability of a given outcome. Users classify the attributes in the event log into controllable and non-controllable, where the former correspond to attributes that can be altered during an execution of the process (the possible treatments). We use an action rule mining technique to identify treatments that co-occur with the outcome under some conditions. Since action rules are generated based on correlation rather than causation, we then use a causal machine learning technique, specifically uplift trees, to discover subgroups of cases for which a treatment has a high causal effect on the outcome after adjusting for confounding variables. We test the relevance of this approach using an event log of a loan application process and compare our findings with recommendations manually produced by process mining experts.
翻訳日:2022-10-22 07:08:50 公開日:2020-09-03
# MixBoost: エクストリーム不均衡処理のための強化されたミックスアップによる合成オーバーサンプリング

MixBoost: Synthetic Oversampling with Boosted Mixup for Handling Extreme Imbalance ( http://arxiv.org/abs/2009.01571v1 )

ライセンス: Link先を確認
Anubha Kabra, Ayush Chopra, Nikaash Puri, Pinkesh Badjatiya, Sukriti Verma, Piyush Gupta, Balaji K(参考訳) あるクラスのインスタンスが他のクラスのインスタンスより多いデータセット上での分類モデルのトレーニングは、難しい問題である。 このような不均衡データセットは、不正検出、診断、計算広告といった現実の状況では標準である。 そこで本研究では,多数のクラスと少数クラスの(Mix)インスタンスをインテリジェントに選択し,それらを組み合わせて,両クラスの特徴を持つ合成ハイブリッドインスタンスを生成する,反復データ拡張手法であるMixBoostを提案する。 mixboostを20のベンチマークデータセットで評価し,既存のアプローチを上回っており,その効果を重要度テストによって検証している。 また,MixBoostの異なる成分の影響を分析するためのアブレーション研究を行った。

Training a classification model on a dataset where the instances of one class outnumber those of the other class is a challenging problem. Such imbalanced datasets are standard in real-world situations such as fraud detection, medical diagnosis, and computational advertising. We propose an iterative data augmentation method, MixBoost, which intelligently selects (Boost) and then combines (Mix) instances from the majority and minority classes to generate synthetic hybrid instances that have characteristics of both classes. We evaluate MixBoost on 20 benchmark datasets, show that it outperforms existing approaches, and test its efficacy through significance testing. We also present ablation studies to analyze the impact of the different components of MixBoost.
翻訳日:2022-10-22 07:08:25 公開日:2020-09-03
# マルチタスク学習の大規模解析と改善

Large Dimensional Analysis and Improvement of Multi Task Learning ( http://arxiv.org/abs/2009.01591v1 )

ライセンス: Link先を確認
Malik Tiomoko, Romain Couillet and Hafiz Tiomoko(参考訳) マルチタスク学習(MTL)は、複数の関連するタスクに含まれる有用な情報を利用して、全てのタスクの一般化性能を向上させる。 本稿では,MTLのLast Square Support Vector Machine (LSSVM) バージョンであるLast Square Support Vector Machine (LSSVM) を,データ次元の$p$と数値の$n$が同じ速度で大きくなる状況下で,非常に強力であることを示す。 入力データの軽度な仮定の下で、MLL-LSSVMアルゴリズムの理論解析はまず、アルゴリズムとその作業時の相互作用によって利用される「十分統計」を明らかにする。 これらの結果から,MLL-LSSVMに対する標準アプローチは概ね準最適であり,負の移動による深刻な影響をもたらすが,これらの障害は容易に修正できることが示唆された。 これらの補正を改良したMLL-LSSVMアルゴリズムに変換し、追加データのみを活用でき、その理論的性能も解析される。 最近の多くの研究で証明され、理論的に持続されているように、これらの大きな次元の結果は幅広いデータ分布にロバストであり、この実験は共生している。 具体的には,提案手法を実データに適用する可能性を強く示唆する,一般的なデータセットにおける理論と経験的性能の系統的密接な挙動を報告する。 この微調整は理論解析に基づいており、特にクロス検証の手順は必要としない。 さらに、実際のデータセットでの報告されたパフォーマンスは、より精巧で直感的なマルチタスクおよび転送学習方法よりも、ほぼ体系的に優れています。

Multi Task Learning (MTL) efficiently leverages useful information contained in multiple related tasks to help improve the generalization performance of all tasks. This article conducts a large dimensional analysis of a simple but, as we shall see, extremely powerful when carefully tuned, Least Square Support Vector Machine (LSSVM) version of MTL, in the regime where the dimension $p$ of the data and their number $n$ grow large at the same rate. Under mild assumptions on the input data, the theoretical analysis of the MTL-LSSVM algorithm first reveals the "sufficient statistics" exploited by the algorithm and their interaction at work. These results demonstrate, as a striking consequence, that the standard approach to MTL-LSSVM is largely suboptimal, can lead to severe effects of negative transfer but that these impairments are easily corrected. These corrections are turned into an improved MTL-LSSVM algorithm which can only benefit from additional data, and the theoretical performance of which is also analyzed. As evidenced and theoretically sustained in numerous recent works, these large dimensional results are robust to broad ranges of data distributions, which our present experiments corroborate. Specifically, the article reports a systematically close behavior between theoretical and empirical performances on popular datasets, which is strongly suggestive of the applicability of the proposed carefully tuned MTL-LSSVM method to real data. This fine-tuning is fully based on the theoretical analysis and does not in particular require any cross validation procedure. Besides, the reported performances on real datasets almost systematically outperform much more elaborate and less intuitive state-of-the-art multi-task and transfer learning methods.
翻訳日:2022-10-22 07:08:11 公開日:2020-09-03
# 生成逆ネットワークと関連するAIツールを用いたエレベータ群制御のシミュレーション

Simulation of an Elevator Group Control Using Generative Adversarial Networks and Related AI Tools ( http://arxiv.org/abs/2009.01696v1 )

ライセンス: Link先を確認
Tom Peetz, Sebastian Vogt, Martin Zaefferer, Thomas Bartz-Beielstein(参考訳) 新しい革新的な技術をテストすることは、安全と受け入れにとって重要なタスクです。 しかし、過去の現実世界のデータがなければ、新しいシステムをどうやってテストできるのか? シミュレーションは、この重要な質問に答える。 イベントベースシミュレーションのような古典的なシミュレーションツールはよく受け入れられている。 しかし、これらの確立されたシミュレーションモデルの多くは、多くのパラメータの仕様を必要とする。 さらに、CFDシミュレーションのようなシミュレーションの実行は非常に時間がかかる。 Generative Adversarial Networks (GAN) は、様々なタスクのための新しいデータを生成する強力なツールである。 現在、最も頻繁なアプリケーションドメインは画像生成である。 本稿ではシミュレーションにおけるGANの適用性について検討する。 我々は、技術システムのシミュレーション出力とGANの出力を比較している。 このアプローチを実証するために、よく知られたマルチカーエレベーターシステムシミュレータが選択された。 本研究は,このアプローチの実現可能性を示す。 また、実装中に発生した落とし穴や技術的な問題についても論じている。 理論的には、ganは高価なシミュレーション実行の代用として使用できるが、"アウト・オブ・ザ・ボックス(out of the box)"では使用できないことも示していた。 微調整が必要である。 我々は,さらなる研究の出発点となる概念実証を提案する。

Testing new, innovative technologies is a crucial task for safety and acceptance. But how can new systems be tested if no historical real-world data exist? Simulation provides an answer to this important question. Classical simulation tools such as event-based simulation are well accepted. But most of these established simulation models require the specification of many parameters. Furthermore, simulation runs, e.g., CFD simulations, are very time consuming. Generative Adversarial Networks (GANs) are powerful tools for generating new data for a variety of tasks. Currently, their most frequent application domain is image generation. This article investigates the applicability of GANs for imitating simulations. We are comparing the simulation output of a technical system with the output of a GAN. To exemplify this approach, a well-known multi-car elevator system simulator was chosen. Our study demonstrates the feasibility of this approach. It also discusses pitfalls and technical problems that occurred during the implementation. Although we were able to show that in principle, GANs can be used as substitutes for expensive simulation runs, we also show that they cannot be used "out of the box". Fine tuning is needed. We present a proof-of-concept, which can serve as a starting point for further research.
翻訳日:2022-10-22 07:07:41 公開日:2020-09-03
# 一般化された検閲指標に対するベラン推定器の研究

On the study of the Beran estimator for generalized censoring indicators ( http://arxiv.org/abs/2009.01726v1 )

ライセンス: Link先を確認
Mikael Escobar-Bach and Olivier Goudet(参考訳) 時間からイベントまでのデータの分析とともに、部分的な情報だけが手元に与えられると仮定するのが一般的である。 条件付きKaplan-Meier推定器(Beran estimator)は、共変量を持つ右チャージデータの存在下で、寿命条件付き生存関数に対する一貫した推定を提案することが知られている。 しかし、各個人が検閲されているかどうかについては明確な知識が必要であるが、この情報は不完全かもしれないし、実際には完全に欠落しているかもしれない。 そこで本研究では,検閲指標が明確に特定されていない場合にberan推定器について検討する。 そこで我々は, 条件付き生存関数の新しい推定器を提供し, 温和な条件下での漸近正常性を確立する。 さらに,検閲指標なしで条件付き生存関数を予測できる教師付き学習問題についても検討する。 本研究では,検閲指標の条件付期待値を推定する様々な手法について検討する。 理論的な結果とともに, シミュレーション研究により, 微量試料に対する推定器の作用を解明し, 合成データの解析およびモノクローナルガムパチーの予後に関する実データに対する実用的応用性を示す。

Along with the analysis of time-to-event data, it is common to assume that only partial information is given at hand. In the presence of right-censored data with covariates, the conditional Kaplan-Meier estimator (also referred as the Beran estimator) is known to propose a consistent estimate for the lifetimes conditional survival function. However, a necessary condition is the clear knowledge of whether each individual is censored or not, although, this information might be incomplete or even totally absent in practice. We thus propose a study on the Beran estimator when the censoring indicator is not clearly specified. From this, we provide a new estimator for the conditional survival function and establish its asymptotic normality under mild conditions. We further study the supervised learning problem where the conditional survival function is to be predicted with no censorship indicators. To this aim, we investigate various approaches estimating the conditional expectation for the censoring indicator. Along with the theoretical results, we illustrate how the estimators work for small samples by means of a simulation study and show their practical applicability with the analysis of synthetic data and the study of real data for the prognosis of monoclonal gammopathy.
翻訳日:2022-10-22 07:07:28 公開日:2020-09-03
# タスク統合ネットワーク:画像検索のための共同検出と検索

Tasks Integrated Networks: Joint Detection and Retrieval for Image Search ( http://arxiv.org/abs/2009.01438v1 )

ライセンス: Link先を確認
Lei Zhang and Zhenwei He and Yi Yang and Liang Wang and Xinbo Gao(参考訳) 従来のオブジェクト検索タスクは、画像内のオブジェクトが手動または自動でプリクロップされていると仮定する、相似性と相似性のある識別的特徴表現を学習することを目的としている。 しかし、実世界の多くの探索シナリオ(ビデオ監視など)では、対象物(人、車など)が正確に検出または注釈されることはほとんどない。 したがって、オブジェクトレベルの検索はバウンディングボックスアノテーションを使わずに難解になり、新たなトピック、すなわち画像レベルの検索につながる。 本稿では、画像検索問題に対処するため、まずエンドツーエンド統合ネット(I-Net)を導入し、その利点を3つ挙げる。 1)所定の画像における類似した異質なオブジェクトに対するsiameseアーキテクチャとオンラインのペアリング戦略をデザインする。 2) 新規なオンラインペアリング(OLP)損失は,複数タスクのトレーニング停止問題を緩和する動的特徴辞書を導入し,複数の負のペアを自動生成して正の値を制限する。 3) ハード・サンプル・優先順位 (hep) に基づくソフトマックス損失は, ハード・カテゴリの選択により分類タスクのロバスト性を向上させるために提案されている。 分割と征服の哲学により、我々はさらに2つの新しい貢献をするDC-I-Netと呼ばれる改良されたI-Netを提案する。 1) 2つのモジュールは、タスク仕様が保証されるように、統合フレームワーク内で異なるタスクを別々に扱うように調整されます。 2) ストアド・クラス・センターを利用したクラス・センター誘導型HEP損失(C2HEP)を提案する。 有名な画像レベルの検索指向ベンチマークデータセットに関する広範な実験は、提案されたdc-i-netが最先端のタスク統合およびタスク分離画像検索モデルよりも優れていることを示している。

The traditional object retrieval task aims to learn a discriminative feature representation with intra-similarity and inter-dissimilarity, which supposes that the objects in an image are manually or automatically pre-cropped exactly. However, in many real-world searching scenarios (e.g., video surveillance), the objects (e.g., persons, vehicles, etc.) are seldom accurately detected or annotated. Therefore, object-level retrieval becomes intractable without bounding-box annotation, which leads to a new but challenging topic, i.e. image-level search. In this paper, to address the image search issue, we first introduce an end-to-end Integrated Net (I-Net), which has three merits: 1) A Siamese architecture and an on-line pairing strategy for similar and dissimilar objects in the given images are designed. 2) A novel on-line pairing (OLP) loss is introduced with a dynamic feature dictionary, which alleviates the multi-task training stagnation problem, by automatically generating a number of negative pairs to restrict the positives. 3) A hard example priority (HEP) based softmax loss is proposed to improve the robustness of classification task by selecting hard categories. With the philosophy of divide and conquer, we further propose an improved I-Net, called DC-I-Net, which makes two new contributions: 1) two modules are tailored to handle different tasks separately in the integrated framework, such that the task specification is guaranteed. 2) A class-center guided HEP loss (C2HEP) by exploiting the stored class centers is proposed, such that the intra-similarity and inter-dissimilarity can be captured for ultimate retrieval. Extensive experiments on famous image-level search oriented benchmark datasets demonstrate that the proposed DC-I-Net outperforms the state-of-the-art tasks-integrated and tasks-separated image search models.
翻訳日:2022-10-22 07:01:28 公開日:2020-09-03
# 野生におけるシーンテキスト検出のための非教師なしドメイン適応

Synthetic-to-Real Unsupervised Domain Adaptation for Scene Text Detection in the Wild ( http://arxiv.org/abs/2009.01766v1 )

ライセンス: Link先を確認
Weijia Wu and Ning Lu and Enze Xie(参考訳) ディープラーニングに基づくシーンテキスト検出は、十分なラベル付きトレーニングデータを用いて、好ましいパフォーマンスを実現することができる。 しかし、手動ラベリングは時間と労力を要する。 極端に、対応する注釈付きデータは利用できない。 合成データの利用は、合成データセットと実際のデータセットの間のドメイン分散ミスマッチを除いて、非常に有望なソリューションである。 そこで本研究では,合成データ(ソースドメイン)から実データ(ターゲットドメイン)へ知識を伝達するシーンテキスト検出のための,合成から現実へのドメイン適応手法を提案する。 本稿では,ドメイン適応型シーンテキスト検出のためのテキスト自己学習(TST)手法と逆テキストインスタンスアライメント(ATA)を提案する。 ATAは、ドメイン分類器を逆向きに訓練することで、ネットワークがドメイン不変の機能を学ぶのに役立つ。 TSTは偽陽性(FPs)と偽陰性(FNs)の悪影響を不正確な偽ラベルから減少させる。 2つのコンポーネントは、合成シーンから実シーンへの適応時のシーンテキスト検出の性能向上に肯定的な影響を及ぼす。 提案手法をSynthText, VISD から ICDAR2015, ICDAR2013 に転送することで評価した。 提案手法の有効性を最大10%改善し,領域適応型シーンテキスト検出において重要な探索的意義を有することを示す。 コードはhttps://github.com/weijiawu/syntoreal_stdで入手できる。

Deep learning-based scene text detection can achieve preferable performance, powered with sufficient labeled training data. However, manual labeling is time consuming and laborious. At the extreme, the corresponding annotated data are unavailable. Exploiting synthetic data is a very promising solution except for domain distribution mismatches between synthetic datasets and real datasets. To address the severe domain distribution mismatch, we propose a synthetic-to-real domain adaptation method for scene text detection, which transfers knowledge from synthetic data (source domain) to real data (target domain). In this paper, a text self-training (TST) method and adversarial text instance alignment (ATA) for domain adaptive scene text detection are introduced. ATA helps the network learn domain-invariant features by training a domain classifier in an adversarial manner. TST diminishes the adverse effects of false positives~(FPs) and false negatives~(FNs) from inaccurate pseudo-labels. Two components have positive effects on improving the performance of scene text detectors when adapting from synthetic-to-real scenes. We evaluate the proposed method by transferring from SynthText, VISD to ICDAR2015, ICDAR2013. The results demonstrate the effectiveness of the proposed method with up to 10% improvement, which has important exploration significance for domain adaptive scene text detection. Code is available at https://github.com/weijiawu/SyntoReal_STD
翻訳日:2022-10-22 07:00:09 公開日:2020-09-03
# 低消費電力エッジ人工知能のためのニューロモルフィック無線システムのエンドツーエンド学習

End-to-End Learning of Neuromorphic Wireless Systems for Low-Power Edge Artificial Intelligence ( http://arxiv.org/abs/2009.01527v1 )

ライセンス: Link先を確認
Nicolas Skatchkovsky, Hyeryung Jang, Osvaldo Simeone(参考訳) 本稿では、ニューロモルフィックセンシング、インパルスラジオ(ir)、スパイキングニューラルネットワーク(snn)に基づく、リモート無線推論のための新しい"all-spike"低電力ソリューションを提案する。 提案システムでは、事象駆動型ニューロモルフィックセンサが非同期時符号化データストリームを生成し、出力スパイキング信号がIRを介してパルス変調され、一般的な周波数選択チャネルを介して送信される一方、受信者の入力は受信した信号をハード検出してSNNに送信して分類を行う。 本稿では,エンコーダ,チャネル,デコーダのカスケードを,jscc(joint source-channel coding)を実装した確率的snベースのオートエンコーダとして扱うエンドツーエンドのトレーニング手順を提案する。 提案システムはNeuroJSCCと呼ばれ、待ち時間と精度の点で従来の同期フレームベースおよびアンコードトランスミッションと比較される。 実験により、提案するエンドツーエンドのニューロモルフィックエッジアーキテクチャは、効率的で低レイテンシなリモートセンシング、通信、推論に有望なフレームワークであることを確認した。

This paper introduces a novel "all-spike" low-power solution for remote wireless inference that is based on neuromorphic sensing, Impulse Radio (IR), and Spiking Neural Networks (SNNs). In the proposed system, event-driven neuromorphic sensors produce asynchronous time-encoded data streams that are encoded by an SNN, whose output spiking signals are pulse modulated via IR and transmitted over general frequence-selective channels; while the receiver's inputs are obtained via hard detection of the received signals and fed to an SNN for classification. We introduce an end-to-end training procedure that treats the cascade of encoder, channel, and decoder as a probabilistic SNN-based autoencoder that implements Joint Source-Channel Coding (JSCC). The proposed system, termed NeuroJSCC, is compared to conventional synchronous frame-based and uncoded transmissions in terms of latency and accuracy. The experiments confirm that the proposed end-to-end neuromorphic edge architecture provides a promising framework for efficient and low-latency remote sensing, communication, and inference.
翻訳日:2022-10-22 06:59:50 公開日:2020-09-03
# ニューラルネットワークが生命のゲームを学ぶのは困難です

It's Hard for Neural Networks To Learn the Game of Life ( http://arxiv.org/abs/2009.01398v1 )

ライセンス: Link先を確認
Jacob M. Springer, Garrett T. Kenyon(参考訳) ニューラルネットワークの学習能力を向上させる取り組みは、重み初期化よりも最適化手法の役割に重点を置いている。 しかし、最近の研究から、ニューラルネットワークは、ソリューションに素早く収束する"lottery ticket"と呼ばれるサブネットワークのラッキーな初期重みに依存することが示唆されている。 本研究では,2次元セルオートマトンであるコンウェイのゲーム・オブ・ライフのn段階を予測するために訓練された小さな畳み込みネットワークについて検討し,その更新ルールを2n+1層畳み込みネットワークで効率的に実装できることを示した。 このタスクでトレーニングされたこのアーキテクチャのネットワークは、ほとんど収束しない。 むしろ、ネットワークは一貫して収束するためにかなり多くのパラメータを必要とする。 さらに、最小に近いアーキテクチャは、パラメータの小さな変更に敏感である。 最後に, セルが生存している場合の最小ネットワークをd_0の確率でトレーニングすることで, 解への収束確率が劇的に増加するように, 臨界値d_0を観察した。 ゲームオブライフのnステップで表される入出力関数を学ぶためのトレーニング畳み込みニューラルネットワークは、抽選券仮説によって予測される多くの特徴、すなわち、この関数を学習するために必要なネットワークのサイズは、関数を実装するのに必要な最小限のネットワークよりもはるかに大きい。

Efforts to improve the learning abilities of neural networks have focused mostly on the role of optimization methods rather than on weight initializations. Recent findings, however, suggest that neural networks rely on lucky random initial weights of subnetworks called "lottery tickets" that converge quickly to a solution. To investigate how weight initializations affect performance, we examine small convolutional networks that are trained to predict n steps of the two-dimensional cellular automaton Conway's Game of Life, the update rules of which can be implemented efficiently in a 2n+1 layer convolutional network. We find that networks of this architecture trained on this task rarely converge. Rather, networks require substantially more parameters to consistently converge. In addition, near-minimal architectures are sensitive to tiny changes in parameters: changing the sign of a single weight can cause the network to fail to learn. Finally, we observe a critical value d_0 such that training minimal networks with examples in which cells are alive with probability d_0 dramatically increases the chance of convergence to a solution. We conclude that training convolutional neural networks to learn the input/output function represented by n steps of Game of Life exhibits many characteristics predicted by the lottery ticket hypothesis, namely, that the size of the networks required to learn this function are often significantly larger than the minimal network required to implement the function.
翻訳日:2022-10-22 06:59:04 公開日:2020-09-03
# 離散強化学習におけるXCSF圧縮の最適性に基づく解析

Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning ( http://arxiv.org/abs/2009.01476v1 )

ライセンス: Link先を確認
Jordan T. Bishop, Marcus Gallagher(参考訳) 学習分類器システム(Learning Classifier System、LCS)は、もともとは強化学習(RL)環境で行動するエージェントとして想定されていた人口ベースの予測システムである。 これらのシステムは人口増加に悩まされるため、人口規模と性能のバランスを保とうとするコンパクト化技術に順応できる。 良く研究されたLCSアーキテクチャはXCSFであり、RL設定ではQ関数近似器として機能する。 我々は,XCSFをOpenAI GymのFrozenLake8x8環境の決定論的・確率的変種に適用し,その性能を関数近似誤差とポリシー精度の点で比較し,動的プログラミングによって環境を解決した最適Q関数とポリシーと比較した。 次に、新しい圧縮アルゴリズム(Greedy Niche Mass Compaction - GNMC)を導入し、XCSFの訓練された人口に対する運用について検討する。 その結果、GNMCは適切なパラメトリエーションを施すと、機能近似誤差をわずかに改善する一方、人口規模は著しく減少することがわかった。 また,この指標を迷路のような環境においてよく用いられるステップ・ツー・ゴールの指標とリンクし,その指標が競合ではなく相補的であることを示す。

Learning classifier systems (LCSs) are population-based predictive systems that were originally envisioned as agents to act in reinforcement learning (RL) environments. These systems can suffer from population bloat and so are amenable to compaction techniques that try to strike a balance between population size and performance. A well-studied LCS architecture is XCSF, which in the RL setting acts as a Q-function approximator. We apply XCSF to a deterministic and stochastic variant of the FrozenLake8x8 environment from OpenAI Gym, with its performance compared in terms of function approximation error and policy accuracy to the optimal Q-functions and policies produced by solving the environments via dynamic programming. We then introduce a novel compaction algorithm (Greedy Niche Mass Compaction - GNMC) and study its operation on XCSF's trained populations. Results show that given a suitable parametrisation, GNMC preserves or even slightly improves function approximation error while yielding a significant reduction in population size. Reasonable preservation of policy accuracy also occurs, and we link this metric to the commonly used steps-to-goal metric in maze-like environments, illustrating how the metrics are complementary rather than competitive.
翻訳日:2022-10-22 06:58:12 公開日:2020-09-03
# 逐次適応のためのスパースメタネットワークとその適応型言語モデリングへの応用

Sparse Meta Networks for Sequential Adaptation and its Application to Adaptive Language Modelling ( http://arxiv.org/abs/2009.01803v1 )

ライセンス: Link先を確認
Tsendsuren Munkhdalai(参考訳) ディープニューラルネットワークのトレーニングには、大量のシングルタスクデータが必要で、長時間の最適化フェーズが伴う。 これは、新しい予期せぬ変化を伴う、複雑で現実的な環境にスケーラブルではない。 人間はハエで素早くインクリメンタルな学習をすることができ、脳内の記憶システムが重要な役割を果たす。 ディープニューラルネットワークを用いて,ディープニューラルネットワークのオンラインシーケンシャル適応アルゴリズムを学習するメタラーニング手法である,スパースメタネットワークを紹介する。 我々は層特異的な高速なメモリでディープニューラルネットワークを補強する。 高速ウェイトは各段階ごとに緩やかに生成され、徐々に蓄積され、オンライン連続適応に有用な帰納バイアスを提供する。 簡単なオンライン強化学習から大規模適応型言語モデリングまで,さまざまな逐次適応シナリオにおいて高い性能を示す。

Training a deep neural network requires a large amount of single-task data and involves a long time-consuming optimization phase. This is not scalable to complex, realistic environments with new unexpected changes. Humans can perform fast incremental learning on the fly and memory systems in the brain play a critical role. We introduce Sparse Meta Networks -- a meta-learning approach to learn online sequential adaptation algorithms for deep neural networks, by using deep neural networks. We augment a deep neural network with a layer-specific fast-weight memory. The fast-weights are generated sparsely at each time step and accumulated incrementally through time providing a useful inductive bias for online continual adaptation. We demonstrate strong performance on a variety of sequential adaptation scenarios, from a simple online reinforcement learning to a large scale adaptive language modelling.
翻訳日:2022-10-22 06:51:46 公開日:2020-09-03
# auto-classifier: automlヘッドに基づくロバストな欠陥検出器

Auto-Classifier: A Robust Defect Detector Based on an AutoML Head ( http://arxiv.org/abs/2009.01573v1 )

ライセンス: Link先を確認
Vasco Lopes, Lu\'is A. Alexandre(参考訳) 表面欠陥検出の主流のアプローチは、手作りの特徴に基づく手法を使うことである。 しかし、抽出された画像に影響を及ぼす条件が異なる場合、これは短い。 そこで,本稿では,表面欠陥検出のタスクにおいて,最先端の畳み込みニューラルネットワークがどの程度機能するかを検討する。 さらに,全ネットワークの予測を最終予測に融合するcnn-fusionと,その分類成分をautomlを用いて修正することで畳み込みニューラルネットワークを改善するための新しい提案であるauto-classifierという2つの手法を提案する。 DAGM2007の異なるデータセットを用いた表面欠陥検出作業において,提案手法の評価実験を行った。 畳み込みニューラルネットワークの利用により,従来の手法よりも優れた結果が得られると同時に,全データセットで100%精度と100%auc結果を達成することにより,自動分類器が他の手法よりも優れることを示した。

The dominant approach for surface defect detection is the use of hand-crafted feature-based methods. However, this falls short when conditions vary that affect extracted images. So, in this paper, we sought to determine how well several state-of-the-art Convolutional Neural Networks perform in the task of surface defect detection. Moreover, we propose two methods: CNN-Fusion, that fuses the prediction of all the networks into a final one, and Auto-Classifier, which is a novel proposal that improves a Convolutional Neural Network by modifying its classification component using AutoML. We carried out experiments to evaluate the proposed methods in the task of surface defect detection using different datasets from DAGM2007. We show that the use of Convolutional Neural Networks achieves better results than traditional methods, and also, that Auto-Classifier out-performs all other methods, by achieving 100% accuracy and 100% AUC results throughout all the datasets.
翻訳日:2022-10-22 06:51:33 公開日:2020-09-03
# concra:畳み込みニューラルネットワークのコード検索アプローチ

CoNCRA: A Convolutional Neural Network Code Retrieval Approach ( http://arxiv.org/abs/2009.01959v1 )

ライセンス: Link先を確認
Marcelo de Rezende Martins and Marco A. Gerosa(参考訳) ソフトウェア開発者は汎用検索エンジンを使って定期的にコードを検索する。 しかし、これらの検索エンジンは、付随する記述がなければ、意味的にコードを見つけることができない。 本稿では,コード検索に対する畳み込みニューラルネットワークアプローチ(CoNCRA)を提案する。 私たちの技術は、自然言語で表現された開発者の意図に最も近いコードスニペットを見つけることを目的としています。 stack overflowから収集した質問とコードスニペットからなるデータセット上で,このアプローチの有効性を評価した。 予備的な結果から, 局所的なインタラクション(単語の近傍)を優先する手法により, 最先端技術(SOTA)を平均5%改善し, 上位3位(3位)のコードスニペットを約80%回収した。 したがって,本手法は有望であり,セマンティックコード検索の有効性を向上させることができる。

Software developers routinely search for code using general-purpose search engines. However, these search engines cannot find code semantically unless it has an accompanying description. We propose a technique for semantic code search: A Convolutional Neural Network approach to code retrieval (CoNCRA). Our technique aims to find the code snippet that most closely matches the developer's intent, expressed in natural language. We evaluated our approach's efficacy on a dataset composed of questions and code snippets collected from Stack Overflow. Our preliminary results showed that our technique, which prioritizes local interactions (words nearby), improved the state-of-the-art (SOTA) by 5% on average, retrieving the most relevant code snippets in the top 3 (three) positions by almost 80% of the time. Therefore, our technique is promising and can improve the efficacy of semantic code retrieval.
翻訳日:2022-10-22 06:50:55 公開日:2020-09-03