このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200209となっている論文です。

PDF登録状況(公開日: 20200209)

TitleAuthorsAbstract論文公表日・翻訳日
# 野生における影響推定のための敵対型ニューラルネットワーク

Adversarial-based neural networks for affect estimations in the wild ( http://arxiv.org/abs/2002.00883v3 )

ライセンス: Link先を確認
Decky Aspandi, Adria Mallol-Ragolta, Bj\"orn Schuller, Xavier Binefa(参考訳) 近年、人間とコンピュータを橋渡しする上で重要な役割を担い、感情コンピューティング研究への関心が高まっている。 この進歩は、より大きなデータの出現によって最近加速されている。 この分野での最近の進歩の1つは、強化サンプルによるモデル学習を改善するために敵対学習を使用することである。 しかし、潜在機能の利用は、敵対的学習によって実現可能であり、まだほとんど研究されていない。 この手法は、コンピュータビジョンなどの関連分野で例示されるように、情緒モデルの性能を向上させることもできる。 この分析を拡大するために,本研究では,本研究で提案した対角線ネットワークを用いて,野生での原子価と覚醒の認識を行う。 具体的には,判別器にいくつかのモードをアグリゲートすることで,生成器が抽出した潜在特性にさらに適応する。 最近リリースされたSEWAデータセットの実験は、結果の進歩的な改善を示唆している。 最後に、ABAW(Affective Behavior Analysis in-Wild)チャレンジデータセットの競合結果を示す。

There is a growing interest in affective computing research nowadays given its crucial role in bridging humans with computers. This progress has been recently accelerated due to the emergence of bigger data. One recent advance in this field is the use of adversarial learning to improve model learning through augmented samples. However, the use of latent features, which is feasible through adversarial learning, is not largely explored, yet. This technique may also improve the performance of affective models, as analogously demonstrated in related fields, such as computer vision. To expand this analysis, in this work, we explore the use of latent features through our proposed adversarial-based networks for valence and arousal recognition in the wild. Specifically, our models operate by aggregating several modalities to our discriminator, which is further conditioned to the extracted latent features by the generator. Our experiments on the recently released SEWA dataset suggest the progressive improvements of our results. Finally, we show our competitive results on the Affective Behavior Analysis in-the-Wild (ABAW) challenge dataset
翻訳日:2023-01-04 08:30:51 公開日:2020-02-09
# ラインハイパーグラフ畳み込みネットワーク:ハイパーグラフへのグラフ畳み込みの適用

Line Hypergraph Convolution Network: Applying Graph Convolution for Hypergraphs ( http://arxiv.org/abs/2002.03392v1 )

ライセンス: Link先を確認
Sambaran Bandyopadhyay, Kishalay Das, M. Narasimha Murty(参考訳) グラフにおけるネットワーク表現学習とノード分類は、異なるタイプのグラフニューラルネットワークの発明によって大きな注目を集めた。 グラフ畳み込みネットワーク(GCN)は、各ノードの近傍に属性を集約する一般的な半教師付き技術である。 従来のGCNは、それぞれのエッジが2つのノードにのみ接続する単純なグラフに適用できる。 しかし、現代の多くのアプリケーションはグラフで高次関係をモデル化する必要があります。 ハイパーグラフはそのような複雑な関係を扱う効果的なデータ型である。 本稿では,可変ハイパーエッジサイズを持つハイパーグラフにグラフ畳み込みを適用する新しい手法を提案する。 我々はハイパーグラフの行グラフという古典的な概念をハイパーグラフ学習文献において初めて使用する。 次に,ハイパーグラフの線グラフ上でグラフ畳み込みを用いることを提案する。 複数の実世界のネットワークデータセットに関する実験分析は、最先端技術と比較して、我々のアプローチのメリットを示している。

Network representation learning and node classification in graphs got significant attention due to the invent of different types graph neural networks. Graph convolution network (GCN) is a popular semi-supervised technique which aggregates attributes within the neighborhood of each node. Conventional GCNs can be applied to simple graphs where each edge connects only two nodes. But many modern days applications need to model high order relationships in a graph. Hypergraphs are effective data types to handle such complex relationships. In this paper, we propose a novel technique to apply graph convolution on hypergraphs with variable hyperedge sizes. We use the classical concept of line graph of a hypergraph for the first time in the hypergraph learning literature. Then we propose to use graph convolution on the line graph of a hypergraph. Experimental analysis on multiple real world network datasets shows the merit of our approach compared to state-of-the-arts.
翻訳日:2023-01-02 15:03:35 公開日:2020-02-09
# 造影剤使用の有無に関わらずコンピュータ断層画像から高分解能血管再建を自動化するための深層学習手法

A Deep Learning Approach to Automate High-Resolution Blood Vessel Reconstruction on Computerized Tomography Images With or Without the Use of Contrast Agent ( http://arxiv.org/abs/2002.03463v1 )

ライセンス: Link先を確認
Anirudh Chandrashekar, Ashok Handa, Natesh Shivakumar, Pierfrancesco Lapolla, Vicente Grau, and Regent Lee(参考訳) ct(ct angiogram)から血管構造を再構築する既存の方法は、血管腔内のラジオ密度を高めるために静脈造影剤を注入することに依存している。 しかし、血液ルーメン、血管壁、または両方の組み合わせにおいて、正確な再建を妨げる病理学的変化が認められる。 大動脈瘤疾患の例では、拡張性大動脈瘤嚢内の大動脈壁に付着する血栓または血栓が70~80%に存在している。 これらの変形は、現在の方法による臨床的に重要な情報の自動抽出を防ぐ。 本研究では, 造影剤を使用せずに取得したCT画像において, 高スループットで自動的な血管分割パイプラインを構築するために, 注意を喚起した改良U-Netアーキテクチャを実装した。 腹部大動脈瘤 (OxAAA) における造影CT像と造影CT像を併用した26例を無作為に選択し, 手動で注記し, モデルトレーニングと評価 (13/13) に使用した。 データ拡張法は10:1の比率でトレーニングデータセットを多様化するために実装された。 ct angiograms (cta) から大動脈瘤の内腔と外壁の両方を抽出する際の注意に基づくu-netの性能を, 一般的な3次元u-netと比較し, 良好な結果を得た。 コントラスト強調CTAおよび非コントラストCT画像からの大動脈分断パイプライン内のこのネットワークアーキテクチャの実装により,大動脈容積の正確かつ効率的な抽出が可能となった。 この抽出ボリュームは、現在の動脈瘤疾患管理の方法の標準化に使用することができ、その後の複雑な幾何学的および形態学的解析の基礎を定めている。 さらに、提案したパイプラインは他の血管病理にも拡張できる。

Existing methods to reconstruct vascular structures from a computed tomography (CT) angiogram rely on injection of intravenous contrast to enhance the radio-density within the vessel lumen. However, pathological changes can be present in the blood lumen, vessel wall or a combination of both that prevent accurate reconstruction. In the example of aortic aneurysmal disease, a blood clot or thrombus adherent to the aortic wall within the expanding aneurysmal sac is present in 70-80% of cases. These deformations prevent the automatic extraction of vital clinically relevant information by current methods. In this study, we implemented a modified U-Net architecture with attention-gating to establish a high-throughput and automated segmentation pipeline of pathological blood vessels in CT images acquired with or without the use of a contrast agent. Twenty-six patients with paired non-contrast and contrast-enhanced CT images within the ongoing Oxford Abdominal Aortic Aneurysm (OxAAA) study were randomly selected, manually annotated and used for model training and evaluation (13/13). Data augmentation methods were implemented to diversify the training data set in a ratio of 10:1. The performance of our Attention-based U-Net in extracting both the inner lumen and the outer wall of the aortic aneurysm from CT angiograms (CTA) was compared against a generic 3-D U-Net and displayed superior results. Subsequent implementation of this network architecture within the aortic segmentation pipeline from both contrast-enhanced CTA and non-contrast CT images has allowed for accurate and efficient extraction of the entire aortic volume. This extracted volume can be used to standardize current methods of aneurysmal disease management and sets the foundation for subsequent complex geometric and morphological analysis. Furthermore, the proposed pipeline can be extended to other vascular pathologies.
翻訳日:2023-01-02 15:03:10 公開日:2020-02-09
# ラジオグラフィーにおけるカテーテルとチューブのコンピュータ支援評価:人工知能は評価にどの程度優れているか?

Computer-Aided Assessment of Catheters and Tubes on Radiographs: How Good is Artificial Intelligence for Assessment? ( http://arxiv.org/abs/2002.03413v1 )

ライセンス: Link先を確認
Xin Yi, Scott J. Adams, Robert D. E. Henderson, Paul Babyn(参考訳) カテーテルは、ラジオグラフィーで2番目に多い異常発見である。 カテーテルが再配置された場合、深刻な合併症が発生するため、カテーテルの位置をすべてのラジオグラフで評価する必要がある。 しかし、毎日のラジオグラフィーの数が多すぎるため、ラジオグラフィーが実行される時間と、それがラジオ学者によって解釈される時間の間にはかなり遅れることがある。 コンピュータ支援アプローチは, 放射線学報告にカテーテルの配置を示すテキストを自動的に挿入し, 放射線学者の効率を向上させる。 50年間にわたるコンピュータ支援診断の研究の後、この分野ではまだ多くの研究がなされている。 深層学習法の開発により,カテーテルアセスメントの問題点ははるかに解決可能である。 そこで我々は,現在のアルゴリズムの見直しを行い,ラジオグラフ上のカテーテル評価のための信頼性の高いコンピュータ支援診断システムの構築における重要な課題を明らかにした。 このレビューは、この重要なユースケースのための機械学習アプローチの開発に役立つかもしれない。

Catheters are the second most common abnormal finding on radiographs. The position of catheters must be assessed on all radiographs, as serious complications can arise if catheters are malpositioned. However, due to the large number of radiographs performed each day, there can be substantial delays between the time a radiograph is performed and when it is interpreted by a radiologist. Computer-aided approaches hold the potential to assist in prioritizing radiographs with potentially malpositioned catheters for interpretation and automatically insert text indicating the placement of catheters in radiology reports, thereby improving radiologists' efficiency. After 50 years of research in computer-aided diagnosis, there is still a paucity of study in this area. With the development of deep learning approaches, the problem of catheter assessment is far more solvable. Therefore, we have performed a review of current algorithms and identified key challenges in building a reliable computer-aided diagnosis system for assessment of catheters on radiographs. This review may serve to further the development of machine learning approaches for this important use case.
翻訳日:2023-01-02 15:02:43 公開日:2020-02-09
# FastWave:FPGAによる自己回帰畳み込みニューラルネットワークの高速化

FastWave: Accelerating Autoregressive Convolutional Neural Networks on FPGA ( http://arxiv.org/abs/2002.04971v1 )

ライセンス: Link先を確認
Shehzeen Hussain, Mojan Javaheripi, Paarth Neekhara, Ryan Kastner and Farinaz Koushanfar(参考訳) 自動回帰畳み込みニューラルネットワーク(CNN)は、音声合成、言語モデリング、ニューラルネットワーク翻訳などのシーケンス生成タスクに広く利用されている。 WaveNetは、シーケンス生成に使用される拡張畳み込みの複数のレイヤで構成された、深い自己回帰CNNである。 wavenetは最先端のオーディオ生成結果を生成するが、ナイーブ推論の実装は非常に遅く、ハイエンドgpu上で1秒のオーディオを生成するのに数分かかる。 本研究では,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータプラットフォーム~\textit{fastwave}を開発し,関連する設計課題に対処する。 我々は、vivado hlsで高速ウェーブネット推論モデルを設計し、固定点実装、配列分割、パイプライン化を含む幅広い最適化を行う。 このモデルでは,高速な行列ベクトル乗算に完全パラメータ化並列アーキテクチャを用い,層単位の遅延の微調整を可能とし,さらなるスループット向上を実現している。 本実験は,様々な最適化のためのスループットと資源利用のトレードオフを比較評価する。 オンチップメモリのみを使用するXilinx XCVU13P FPGAのWaveNet設計は、CPU実装と比較して66速、GPU実装より11速を実現しています。

Autoregressive convolutional neural networks (CNNs) have been widely exploited for sequence generation tasks such as audio synthesis, language modeling and neural machine translation. WaveNet is a deep autoregressive CNN composed of several stacked layers of dilated convolution that is used for sequence generation. While WaveNet produces state-of-the art audio generation results, the naive inference implementation is quite slow; it takes a few minutes to generate just one second of audio on a high-end GPU. In this work, we develop the first accelerator platform~\textit{FastWave} for autoregressive convolutional neural networks, and address the associated design challenges. We design the Fast-Wavenet inference model in Vivado HLS and perform a wide range of optimizations including fixed-point implementation, array partitioning and pipelining. Our model uses a fully parameterized parallel architecture for fast matrix-vector multiplication that enables per-layer customized latency fine-tuning for further throughput improvement. Our experiments comparatively assess the trade-off between throughput and resource utilization for various optimizations. Our best WaveNet design on the Xilinx XCVU13P FPGA that uses only on-chip memory, achieves 66 faster generation speed compared to CPU implementation and 11 faster generation speed than GPU implementation.
翻訳日:2023-01-02 15:02:11 公開日:2020-02-09
# DeepLearningによる暗号通貨市場の価格形成

Ascertaining price formation in cryptocurrency markets with DeepLearning ( http://arxiv.org/abs/2003.00803v1 )

ライセンス: Link先を確認
Fan Fang, Waichung Chung, Carmine Ventre, Michail Basios, Leslie Kanthan, Lingbo Li, Fan Wu(参考訳) 仮想通貨市場は、世界の金融市場で急速に成長している。 株式、外国為替、商品などの伝統的な市場とは異なり、暗号通貨市場はよりボラティリティと不流動性を有すると考えられている。 本論文は,株式市場予測にディープラーニングを用いた最近の成功に触発されたものである。 本研究では,暗号通貨市場の特徴を高周波で分析し,提示する。 特に,提案手法を応用して,近日中の価格変動の方向を予測した。 8ドルの暗号通貨ペアからライブのティックレベルデータを監視し、統計的および機械学習の両方のテクニックを用いて、ライブ予測を行った。 我々は、暗号通貨に対して有望な結果が可能であることを明らかにし、特に、Bitcoin対USドルライブ為替レートの中間価格運動の予測について、一貫した78セントの精度を達成した。

The cryptocurrency market is amongst the fastest-growing of all the financial markets in the world. Unlike traditional markets, such as equities, foreign exchange and commodities, cryptocurrency market is considered to have larger volatility and illiquidity. This paper is inspired by the recent success of using deep learning for stock market prediction. In this work, we analyze and present the characteristics of the cryptocurrency market in a high-frequency setting. In particular, we applied a deep learning approach to predict the direction of the mid-price changes on the upcoming tick. We monitored live tick-level data from $8$ cryptocurrency pairs and applied both statistical and machine learning techniques to provide a live prediction. We reveal that promising results are possible for cryptocurrencies, and in particular, we achieve a consistent $78\%$ accuracy on the prediction of the mid-price movement on live exchange rate of Bitcoins vs US dollars.
翻訳日:2023-01-02 15:01:51 公開日:2020-02-09
# 個人再識別のための多様性向上型スロードロップブロックネットワーク

Diversity-Achieving Slow-DropBlock Network for Person Re-Identification ( http://arxiv.org/abs/2002.04414v1 )

ライセンス: Link先を確認
Xiaofu Wu, Ben Xie, Shiliang Zhao, Suofei Zhang, Yong Xiao, Ming Li(参考訳) マルチブランチネットワークアーキテクチャを使用した人物再識別(Re-ID)の大きな課題は、IDラベル付きデータセットから多様な特徴を学習することだ。 BDB(Batch DropBlock)ネットワークは近年,グローバルブランチと機能ドロップブランチの多様性を実現するために提案されている。 本稿では,中間機能層から入力層へドロップ操作を移動させる手法を提案する(画像ドロップ)。 入力画像の大部分が失われる可能性があるため、トレーニングの収束が難しくなる。 そこで本研究では,この問題を修復するための新しいダブルバッチ・スプリット・コトレーニング手法を提案する。 特に,各枝に個別の落差比を設定することにより,複数の落差枝を用いて特徴量の多様性を良好に達成できることを示す。 提案手法は, Market-1501, DukeMTMC-reID, CUHK03などの人気人物Re-IDデータセット上でBDBよりも優れていることを示す実証的証拠が得られ, より多くの枝を落としても性能が向上する。

A big challenge of person re-identification (Re-ID) using a multi-branch network architecture is to learn diverse features from the ID-labeled dataset. The 2-branch Batch DropBlock (BDB) network was recently proposed for achieving diversity between the global branch and the feature-dropping branch. In this paper, we propose to move the dropping operation from the intermediate feature layer towards the input (image dropping). Since it may drop a large portion of input images, this makes the training hard to converge. Hence, we propose a novel double-batch-split co-training approach for remedying this problem. In particular, we show that the feature diversity can be well achieved with the use of multiple dropping branches by setting individual dropping ratio for each branch. Empirical evidence demonstrates that the proposed method performs superior to BDB on popular person Re-ID datasets, including Market-1501, DukeMTMC-reID and CUHK03 and the use of more dropping branches can further boost the performance.
翻訳日:2023-01-02 14:54:51 公開日:2020-02-09
# ラフ集合に基づく集約ランク尺度とその教師付き複数文書要約への応用

Rough Set based Aggregate Rank Measure & its Application to Supervised Multi Document Summarization ( http://arxiv.org/abs/2002.03259v1 )

ライセンス: Link先を確認
Nidhika Yadav, Niladri Chatterjee(参考訳) 機械学習のほとんどの問題は分類に対応しており、宇宙のオブジェクトは関連するクラスに分類される。 決定クラスごとの宇宙の分類対象のランク付けは難しい問題である。 本稿では,この問題を解決するために,ランク尺度と呼ばれるRough Setベースの新しいメンバーシップを提案する。 特定のクラスへの要素のランク付けに利用しなければならない。 これは、ラフ集合に基づく近似の同値な特徴づけを与えるpawlak rough set based membership functionとは異なる。 現実の問題によく見られる、一貫性のない、誤った、そして欠落したデータを扱いながら、コンピューティングメンバーシップの伝統的なアプローチを超えることが最重要になる。 この結果、総合的なランク尺度が提案された。 その紙の貢献は3倍だ。 まず,オブジェクトのクラスランキング内の数値的特徴付けのために,ラフ集合に基づく尺度を提案する。 第2に、ランク尺度と集計基準に基づく会員制の特性を提案し、確立する。 第3に,様々な教師付き学習手法を用いて重要な文クラスを決定し,提案するランキング尺度を用いてポスト処理を行う,教師付き複数文書要約の問題に対して,メンバシップと集計ランキングの概念を適用する。 その結果,精度が大幅に向上した。

Most problems in Machine Learning cater to classification and the objects of universe are classified to a relevant class. Ranking of classified objects of universe per decision class is a challenging problem. We in this paper propose a novel Rough Set based membership called Rank Measure to solve to this problem. It shall be utilized for ranking the elements to a particular class. It differs from Pawlak Rough Set based membership function which gives an equivalent characterization of the Rough Set based approximations. It becomes paramount to look beyond the traditional approach of computing memberships while handling inconsistent, erroneous and missing data that is typically present in real world problems. This led us to propose the aggregate Rank Measure. The contribution of the paper is three fold. Firstly, it proposes a Rough Set based measure to be utilized for numerical characterization of within class ranking of objects. Secondly, it proposes and establish the properties of Rank Measure and aggregate Rank Measure based membership. Thirdly, we apply the concept of membership and aggregate ranking to the problem of supervised Multi Document Summarization wherein first the important class of sentences are determined using various supervised learning techniques and are post processed using the proposed ranking measure. The results proved to have significant improvement in accuracy.
翻訳日:2023-01-02 14:54:18 公開日:2020-02-09
# バイナリデータによるビクラスタリングの双方向最適化

Bi-objective Optimization of Biclustering with Binary Data ( http://arxiv.org/abs/2002.04711v1 )

ライセンス: Link先を確認
Fred Glover, Said Hanafi, and Gintaras Palubeckis(参考訳) クラスタリングは、いくつかの類似性基準に従って、データオブジェクトをクラスタと呼ばれるサブセットに分割する。 本稿では,クラスタの重複を許容する準クラスタ化と呼ばれる一般化について述べる。 バイクラスタ化は、オブジェクトと機能を同時にグループ化し、特定のオブジェクト群が特別な機能群を持つようにします。 近年、biclusteringはいくつかの実用的なアプリケーションで多くの注目を集めている。 本稿では,バイナリデータを用いたバイクラスタ化問題の2目的最適化について検討する。 まず,bi-objective optimization biclusteringのための整数型プログラミング方式を提案する。 次に,集合交叉演算に基づく構成的ヒューリスティックを提案し,その効率的な実装により,エプシロン制約法内で用いられる一連の単目的問題(目的関数を1つだけ保持し,他方の目的関数を制約に組み込む)を解く。 最後に, 実験結果から, CPLEXソルバを最適解を求める正確なアルゴリズムとして用いると, 大規模インスタンスの計算コストが大幅に増加し, 提案したヒューリスティックは優れた結果をもたらし, 計算コストを大幅に削減することを示した。

Clustering consists of partitioning data objects into subsets called clusters according to some similarity criteria. This paper addresses a generalization called quasi-clustering that allows overlapping of clusters, and which we link to biclustering. Biclustering simultaneously groups the objects and features so that a specific group of objects has a special group of features. In recent years, biclustering has received a lot of attention in several practical applications. In this paper we consider a bi-objective optimization of biclustering problem with binary data. First we present an integer programing formulations for the bi-objective optimization biclustering. Next we propose a constructive heuristic based on the set intersection operation and its efficient implementation for solving a series of mono-objective problems used inside the Epsilon-constraint method (obtained by keeping only one objective function and the other objective function is integrated into constraints). Finally, our experimental results show that using CPLEX solver as an exact algorithm for finding an optimal solution drastically increases the computational cost for large instances, while our proposed heuristic provides very good results and significantly reduces the computational expense.
翻訳日:2023-01-02 14:52:40 公開日:2020-02-09
# $k$-set 制約下でのストリーミングサブモジュラー最大化

Streaming Submodular Maximization under a $k$-Set System Constraint ( http://arxiv.org/abs/2002.03352v1 )

ライセンス: Link先を確認
Ran Haba, Ehsan Kazemi, Moran Feldman and Amin Karbasi(参考訳) 本稿では,モノトンサブモジュラー最大化のためのストリーミングアルゴリズムを非モノトンサブモジュラー最大化のためのストリーミングアルゴリズムに変換する新しいフレームワークを提案する。 この還元は容易に$k$-matchoid制約を受ける部分モジュラー最大化に対する現在最も厳密な決定論的近似比をもたらす。 さらに,$k$-extendible と $k$-set の制約を受けるモノトーンサブモジュラー最大化のための最初のストリーミングアルゴリズムを提案する。 提案する還元法とともに,上記の制約を満たす部分モジュラー最大化の近似比として,o(k\log k)$ と $o(k^2\log k)$ を得る。 我々は,ランダムに生成されたグラフにおける最大独立集合の探索,ソーシャルネットワーク上の線形関数の最大化,映画推薦,yelp位置要約,twitterデータの要約など,既存の作業に対するアルゴリズムの実証的性能を広範囲に評価した。

In this paper, we propose a novel framework that converts streaming algorithms for monotone submodular maximization into streaming algorithms for non-monotone submodular maximization. This reduction readily leads to the currently tightest deterministic approximation ratio for submodular maximization subject to a $k$-matchoid constraint. Moreover, we propose the first streaming algorithm for monotone submodular maximization subject to $k$-extendible and $k$-set system constraints. Together with our proposed reduction, we obtain $O(k\log k)$ and $O(k^2\log k)$ approximation ratio for submodular maximization subject to the above constraints, respectively. We extensively evaluate the empirical performance of our algorithm against the existing work in a series of experiments including finding the maximum independent set in randomly generated graphs, maximizing linear functions over social networks, movie recommendation, Yelp location summarization, and Twitter data summarization.
翻訳日:2023-01-02 14:52:03 公開日:2020-02-09
# サブセット選択における多様性と包含度

Diversity and Inclusion Metrics in Subset Selection ( http://arxiv.org/abs/2002.03256v1 )

ライセンス: Link先を確認
Margaret Mitchell, Dylan Baker, Nyalleng Moorosi, Emily Denton, Ben Hutchinson, Alex Hanna, Timnit Gebru, Jamie Morgenstern(参考訳) 公平性という倫理的概念は、最近、幅広い制約と目的を記述する機械学習(ML)設定に応用されている。 部分集合選択問題に対する倫理的概念の関連性を考えるとき、多様性と包含性の概念は、社会的権力とアクセスの差を考慮したアウトプットを作成するために追加的に適用される。 これらの概念に基づいたメトリクスを導入し、これらを分離して適用し、さらに公正な制約を課す。 人体実験の結果は,提案基準を支持している。 社会的選択方法は、さらに、集合を集約し、好む集合を選択するために利用することができる。

The ethical concept of fairness has recently been applied in machine learning (ML) settings to describe a wide range of constraints and objectives. When considering the relevance of ethical concepts to subset selection problems, the concepts of diversity and inclusion are additionally applicable in order to create outputs that account for social power and access differentials. We introduce metrics based on these concepts, which can be applied together, separately, and in tandem with additional fairness constraints. Results from human subject experiments lend support to the proposed criteria. Social choice methods can additionally be leveraged to aggregate and choose preferable sets, and we detail how these may be applied.
翻訳日:2023-01-02 14:45:41 公開日:2020-02-09
# GradMix: ドメインとタスク間の複数ソース転送

GradMix: Multi-source Transfer across Domains and Tasks ( http://arxiv.org/abs/2002.03264v1 )

ライセンス: Link先を確認
Junnan Li, Ziwei Xu, Yongkang Wong, Qi Zhao, Mohan Kankanhalli(参考訳) コンピュータビジョンコミュニティは、XからYまでの複雑なマッピングを見つけるための深層畳み込みネットワークの能力のおかげで、提案され、対処される新しいタスクが前例のないペースで進んでいるのを目撃している。 しかし、十分な量のトレーニングデータを手動でラベル付けるのは高価で時間がかかります。 したがって、ターゲットタスクに有用な知識を学習するために、既製のラベル付きデータセットを活用できるアルゴリズムを開発することが重要である。 従来の研究は主に1つのソースからの転送学習に重点を置いているが、ドメインとタスク(ms-dtt)間のマルチソース転送を半教師ありで研究している。 グラデーションベース学習規則で学習されたモデルに適用可能なモデル非依存な手法であるgradmixを提案し,学習中のすべてのソースからのグラデーションを重み付け,混合することにより、グラデーション降下を通じて知識を伝達する。 GradMixは、ソース勾配に階層的な重みを割り当てるメタ学習目標に従っており、組み合わせた勾配は、ターゲットデータセットからの小さなサンプルセットの損失を最小限に抑える方向に従う。 また,対象課題に対する重要度に基づいて,各ミニバッチの学習率を適応的に調整する手法と,対象領域におけるラベルなしサンプルを活用する擬似ラベル法を提案する。 数値認識と行動認識という2つのタスクでMS-DTT実験を行い,提案手法の利点を実証した。

The computer vision community is witnessing an unprecedented rate of new tasks being proposed and addressed, thanks to the deep convolutional networks' capability to find complex mappings from X to Y. The advent of each task often accompanies the release of a large-scale annotated dataset, for supervised training of deep network. However, it is expensive and time-consuming to manually label sufficient amount of training data. Therefore, it is important to develop algorithms that can leverage off-the-shelf labeled dataset to learn useful knowledge for the target task. While previous works mostly focus on transfer learning from a single source, we study multi-source transfer across domains and tasks (MS-DTT), in a semi-supervised setting. We propose GradMix, a model-agnostic method applicable to any model trained with gradient-based learning rule, to transfer knowledge via gradient descent by weighting and mixing the gradients from all sources during training. GradMix follows a meta-learning objective, which assigns layer-wise weights to the source gradients, such that the combined gradient follows the direction that minimize the loss for a small set of samples from the target dataset. In addition, we propose to adaptively adjust the learning rate for each mini-batch based on its importance to the target task, and a pseudo-labeling method to leverage the unlabeled samples in the target domain. We conduct MS-DTT experiments on two tasks: digit recognition and action recognition, and demonstrate the advantageous performance of the proposed method against multiple baselines.
翻訳日:2023-01-02 14:45:29 公開日:2020-02-09
# 360$^{\circ}$ビデオにおける弱教師付きマルチパーソンアクション認識

Weakly-Supervised Multi-Person Action Recognition in 360$^{\circ}$ Videos ( http://arxiv.org/abs/2002.03266v1 )

ライセンス: Link先を確認
Junnan Li, Jianquan Liu, Yongkang Wong, Shoji Nishimura, Mohan Kankanhalli(参考訳) 近年の360$^{\circ}$カメラの開発により、1台のビデオが全シーンを撮影できるようになり、監視シナリオに有望な可能性を秘めている。 しかし、全方位ビデオ解析の研究はハードウェアの進歩に遅れを取っている。 本研究では,トップビュー360$^{\circ}$ビデオにおけるアクション認識の重要な問題に対処する。 360$^{\circ}$ビデオは通常、複数の人が同時にアクションを実行する様子を撮影する。 また、人物の外観も変形している。 提案手法は,まず全方位ビデオからパノラマ映像へ変換し,その後,行動認識のための領域ベースの3d cnnを用いて空間的時間的特徴を抽出する。 本研究では,マルチインスタンス・マルチラベル学習に基づく弱教師付き手法を提案する。ビデオレベルのアクションラベルのみを監督としてビデオ内の複数のアクションを認識し,局所化するモデルを訓練する。 提案手法の有効性を定量的に検証し,行動局在化結果を定性的に示す実験を行った。 この方向の研究を可能にするために,マルチ対人行動認識のための最初の全方位ビデオデータセットである360Actionを導入する。

The recent development of commodity 360$^{\circ}$ cameras have enabled a single video to capture an entire scene, which endows promising potentials in surveillance scenarios. However, research in omnidirectional video analysis has lagged behind the hardware advances. In this work, we address the important problem of action recognition in top-view 360$^{\circ}$ videos. Due to the wide filed-of-view, 360$^{\circ}$ videos usually capture multiple people performing actions at the same time. Furthermore, the appearance of people are deformed. The proposed framework first transforms omnidirectional videos into panoramic videos, then it extracts spatial-temporal features using region-based 3D CNNs for action recognition. We propose a weakly-supervised method based on multi-instance multi-label learning, which trains the model to recognize and localize multiple actions in a video using only video-level action labels as supervision. We perform experiments to quantitatively validate the efficacy of the proposed method and qualitatively demonstrate action localization results. To enable research in this direction, we introduce 360Action, the first omnidirectional video dataset for multi-person action recognition.
翻訳日:2023-01-02 14:45:02 公開日:2020-02-09
# フィルタ減衰を用いた畳み込みニューラルネットワークのプルーニング

Convolutional Neural Network Pruning Using Filter Attenuation ( http://arxiv.org/abs/2002.03299v1 )

ライセンス: Link先を確認
Morteza Mousa-Pasandi, Mohsen Hajabdollahi, Nader Karimi, Shadrokh Samavi, Shahram Shirani(参考訳) フィルタは畳み込みニューラルネットワーク(CNN)の重要な要素である。 フィルタは特徴マップに対応し、cnn処理の計算およびメモリ要件の主要部分を形成する。 フィルタプルーニング法では、チャネルや接続を含む全てのコンポーネントを持つフィルタが除去される。 フィルタの除去は、ネットワークの性能を大幅に変化させる可能性がある。 また、削除されたフィルタはネットワーク構造に戻ることができない。 この論文でこれらの問題に対処したい。 本稿では,弱いフィルタを直接除去しないフィルタ減衰に基づくcnnプルーニング法を提案する。 代わりに弱いフィルタは減衰し、徐々に除去される。 提案手法では、弱フィルタは突然除去されず、これらのフィルタがネットワークに復帰する可能性がある。 フィルタ減衰法は,Cifar10画像分類タスクのVGGモデルを用いて評価する。 シミュレーションの結果, フィルタ減衰は異なるプルーニング基準で動作し, 従来のプルーニング法と比較して良好な結果を得た。

Filters are the essential elements in convolutional neural networks (CNNs). Filters are corresponded to the feature maps and form the main part of the computational and memory requirement for the CNN processing. In filter pruning methods, a filter with all of its components, including channels and connections, are removed. The removal of a filter can cause a drastic change in the network's performance. Also, the removed filters cannot come back to the network structure. We want to address these problems in this paper. We propose a CNN pruning method based on filter attenuation in which weak filters are not directly removed. Instead, weak filters are attenuated and gradually removed. In the proposed attenuation approach, weak filters are not abruptly removed, and there is a chance for these filters to return to the network. The filter attenuation method is assessed using the VGG model for the Cifar10 image classification task. Simulation results show that the filter attenuation works with different pruning criteria, and better results are obtained in comparison with the conventional pruning methods.
翻訳日:2023-01-02 14:44:45 公開日:2020-02-09
# 効率的な推論のための分割畳み込みニューラルネットワーク構造

Splitting Convolutional Neural Network Structures for Efficient Inference ( http://arxiv.org/abs/2002.03302v1 )

ライセンス: Link先を確認
Emad MalekHosseini, Mohsen Hajabdollahi, Nader Karimi, Shadrokh Samavi, Shahram Shirani(参考訳) 大量の入力データを持つ畳み込みニューラルネットワーク(CNN)では、メモリ管理が大きな関心事となっている。 メモリコストの削減は,機能マッププルーニングや入力データ分割など,さまざまなテクニックを通じて実現可能な,これらの問題に対処するための効果的な方法だ。 この研究領域に存在する様々な手法のうち、ネットワーク構造を分割することは興味深い研究分野であり、この分野ではいくつかの研究が行われている。 本研究では,ネットワーク構造分割によるメモリ使用率の低減問題に対処する。 ネットワーク構造を、元のネットワークよりも少ないメモリを消費する小さな部分に分割する新しい手法を提案する。 分割された部分は、ほぼ別々に処理できるため、メモリ管理の改善に不可欠な役割を担います。 この分割手法は、CIFAR10画像の分類のために、VGG16とResNet18のよく知られた2つのネットワーク構造でテストされている。 シミュレーションの結果,分割法では演算量とメモリ消費量の両方を削減できることがわかった。

For convolutional neural networks (CNNs) that have a large volume of input data, memory management becomes a major concern. Memory cost reduction can be an effective way to deal with these problems that can be realized through different techniques such as feature map pruning, input data splitting, etc. Among various methods existing in this area of research, splitting the network structure is an interesting research field, and there are a few works done in this area. In this study, the problem of reducing memory utilization using network structure splitting is addressed. A new technique is proposed to split the network structure into small parts that consume lower memory than the original network. The split parts can be processed almost separately, which provides an essential role for better memory management. The split approach has been tested on two well-known network structures of VGG16 and ResNet18 for the classification of CIFAR10 images. Simulation results show that the splitting method reduces both the number of computational operations as well as the amount of memory consumption.
翻訳日:2023-01-02 14:44:32 公開日:2020-02-09
# fsd-10:スポーツコンテンツ分析のためのデータセット

FSD-10: A Dataset for Competitive Sports Content Analysis ( http://arxiv.org/abs/2002.03312v1 )

ライセンス: Link先を確認
Shenlan Liu, Xiang Liu, Gao Huang, Lin Feng, Lianyu Hu, Dong Jiang, Aibin Zhang, Yang Liu, Hong Qiao(参考訳) アクション認識はビデオ分析において重要かつ困難な問題である。 過去10年間、深層学習の発展とともに行動認識の進展が見られたが、スポーツコンテンツ分析の競争は鈍化している。 競技用スポーツビデオクリップからの行動認識の研究を促進するために,スポーツコンテンツ分析のためのフィギュアスケートデータセット(FSD-10)を導入する。 この目的のために、2017-2018年の世界フィギュアスケート選手権から1484のクリップを収集し、男性/女性プログラムで10の異なるアクションからなる。 各クリップは毎秒30フレームのレートで、解像度は1080$\times$720である。 これらのクリップは、タイプ、実行の成績、スケーター情報などの専門家によって注釈付けされる。 など フィギュアスケートにおけるアクション認識のベースラインを構築するために,fsd-10における最先端のアクション認識手法を評価する。 ドメイン知識はスポーツ分野において大きな関心事であるという考えに動機付けられ,キーフレームに基づく時間セグメントネットワーク(KTSN)を提案する。 FSD-10はアクションポーズではなくアクション動作を正確に抽出する必要があるため、アクション認識アルゴリズムをベンチマークするための理想的なデータセットであることを示す。 きめ細かいアクションの集合体として設計されたFSD-10は、より堅牢で高度なアクション認識モデルを開発する上で、新たな課題となることを願っている。

Action recognition is an important and challenging problem in video analysis. Although the past decade has witnessed progress in action recognition with the development of deep learning, such process has been slow in competitive sports content analysis. To promote the research on action recognition from competitive sports video clips, we introduce a Figure Skating Dataset (FSD-10) for finegrained sports content analysis. To this end, we collect 1484 clips from the worldwide figure skating championships in 2017-2018, which consist of 10 different actions in men/ladies programs. Each clip is at a rate of 30 frames per second with resolution 1080 $\times$ 720. These clips are then annotated by experts in type, grade of execution, skater info, .etc. To build a baseline for action recognition in figure skating, we evaluate state-of-the-art action recognition methods on FSD-10. Motivated by the idea that domain knowledge is of great concern in sports field, we propose a keyframe based temporal segment network (KTSN) for classification and achieve remarkable performance. Experimental results demonstrate that FSD-10 is an ideal dataset for benchmarking action recognition algorithms, as it requires to accurately extract action motions rather than action poses. We hope FSD-10, which is designed to have a large collection of finegrained actions, can serve as a new challenge to develop more robust and advanced action recognition models.
翻訳日:2023-01-02 14:43:47 公開日:2020-02-09
# 知識伝達を用いた糖尿病網膜症画像分類のためのラベルなしデータ配置

Unlabeled Data Deployment for Classification of Diabetic Retinopathy Images Using Knowledge Transfer ( http://arxiv.org/abs/2002.03321v1 )

ライセンス: Link先を確認
Sajjad Abbasi, Mohsen Hajabdollahi, Nader Karimi, Shadrokh Samavi, Shahram Shirani(参考訳) 畳み込みニューラルネットワーク(CNN)は医用画像処理に広く有用である。 医療画像は豊富だが、注釈付きデータが不足している。 転送学習はラベル付きデータ不足の問題を解決するために使用され、CNNにより良いトレーニング能力を与える。 転送学習は多くの異なる医療応用で利用することができるが、転送対象のモデルは元のネットワークと同じサイズでなければならない。 モデル知識を別のモデルに移すための知識蒸留が最近提案されており、転向学習の欠点をカバーするのに有用である。 しかし、知識の一部は知識蒸留によって蒸留されないことがある。 本稿では,モデルの全知識を別の知識に移すために,転送学習を用いた新しい知識蒸留法を提案する。 提案手法は,少数のラベル付きデータが利用可能である医療画像解析において有用かつ実用的なものである。 提案法を糖尿病網膜症分類に適用した。 シミュレーションの結果,提案手法を用いることで,ネットワークの知識をより小さなモデルに移すことができることがわかった。

Convolutional neural networks (CNNs) are extensively beneficial for medical image processing. Medical images are plentiful, but there is a lack of annotated data. Transfer learning is used to solve the problem of lack of labeled data and grants CNNs better training capability. Transfer learning can be used in many different medical applications; however, the model under transfer should have the same size as the original network. Knowledge distillation is recently proposed to transfer the knowledge of a model to another one and can be useful to cover the shortcomings of transfer learning. But some parts of the knowledge may not be distilled by knowledge distillation. In this paper, a novel knowledge distillation using transfer learning is proposed to transfer the whole knowledge of a model to another one. The proposed method can be beneficial and practical for medical image analysis in which a small number of labeled data are available. The proposed process is tested for diabetic retinopathy classification. Simulation results demonstrate that using the proposed method, knowledge of an extensive network can be transferred to a smaller model.
翻訳日:2023-01-02 14:43:25 公開日:2020-02-09
# 動的推論:効率的なビデオ行動認識への新しいアプローチ

Dynamic Inference: A New Approach Toward Efficient Video Action Recognition ( http://arxiv.org/abs/2002.03342v1 )

ライセンス: Link先を確認
Wenhao Wu, Dongliang He, Xiao Tan, Shifeng Chen, Yi Yang, Shilei Wen(参考訳) 近年、ビデオにおけるアクション認識は大きな成功を収めているが、膨大な計算コストのために難しい課題である。 軽量ネットワークの設計は可能であるが、認識性能を低下させる可能性がある。 本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。 動的な推論アプローチは、ネットワークの奥行きと入力されたビデオフレームの数、さらには入力方向とネットワークの奥行き方向のジョイントな方法でも実現可能である。 簡単に言えば、計算グラフの入力フレームとネットワーク深さを2次元グリッドとして扱い、予測モジュールとともに予めいくつかのチェックポイントをグリッド上に配置する。 予め定義された経路に従ってグリッド上で段階的に推論を行い、チェックポイントを越えると、早期停止基準が満たされるかどうかに応じて早期予測を行うことができる。 概念実証のため、2つのよく知られたバックボーンCNNを用いて3つの動的推論フレームワークをインスタンス化する。 このような場合、新しいフレーム置換方式による早期予測による時間範囲制限の欠点を克服し、オンライン時間シフトモジュールを導入することで、プログレッシブ計算とビデオ時間関係モデリングの矛盾を軽減する。 我々のアイデアの有効性を徹底的に分析し,今後の研究活動に刺激を与えるために,広範な実験を行った。 各種データセットの結果も,我々のアプローチの優位性を示している。

Though action recognition in videos has achieved great success recently, it remains a challenging task due to the massive computational cost. Designing lightweight networks is a possible solution, but it may degrade the recognition performance. In this paper, we innovatively propose a general dynamic inference idea to improve inference efficiency by leveraging the variation in the distinguishability of different videos. The dynamic inference approach can be achieved from aspects of the network depth and the number of input video frames, or even in a joint input-wise and network depth-wise manner. In a nutshell, we treat input frames and network depth of the computational graph as a 2-dimensional grid, and several checkpoints are placed on this grid in advance with a prediction module. The inference is carried out progressively on the grid by following some predefined route, whenever the inference process comes across a checkpoint, an early prediction can be made depending on whether the early stop criteria meets. For the proof-of-concept purpose, we instantiate three dynamic inference frameworks using two well-known backbone CNNs. In these instances, we overcome the drawback of limited temporal coverage resulted from an early prediction by a novel frame permutation scheme, and alleviate the conflict between progressive computation and video temporal relation modeling by introducing an online temporal shift module. Extensive experiments are conducted to thoroughly analyze the effectiveness of our ideas and to inspire future research efforts. Results on various datasets also evident the superiority of our approach.
翻訳日:2023-01-02 14:43:10 公開日:2020-02-09
# 微視的分類のための弱教師付き注意ピラミッド畳み込みニューラルネットワーク

Weakly Supervised Attention Pyramid Convolutional Neural Network for Fine-Grained Visual Classification ( http://arxiv.org/abs/2002.03353v1 )

ライセンス: Link先を確認
Yifeng Ding, Shaoguo Wen, Jiyang Xie, Dongliang Chang, Zhanyu Ma, Zhongwei Si, Haibin Ling(参考訳) オブジェクトのサブカテゴリを、同じスーパーカテゴリ(例えば、鳥種、車種、航空機モデル)から細粒度視覚分類(FGVC)に分類することは、識別的特徴表現と正確な地域局在に依存する。 既存のアプローチは主に高レベルの特徴から情報を抽出することに焦点を当てている。 しかし,本論文では,低レベル情報(色,エッジ接合,テクスチャパターンなど)を統合することにより,特徴表現の強化と正確な位置識別領域による性能の向上が図られている。 Attention Pyramid Convolutional Neural Network (AP-CNN) という名前の私たちのソリューションは イ トップダウン特徴経路及びボトムアップ注意経路を有するピラミッド階層構造であって、ハイレベル意味論及び低レベル特徴表現の両方を学習すること。 b) ROI誘導のドロップブロックとROI誘導のズームインによるROI誘導の洗練戦略。 提案されたAP-CNNは、追加のバウンディングボックス/パートアノテーションなしで、エンドツーエンドでトレーニングすることができる。 一般的な3つのFGVCデータセット(CUB-200-2011、Stanford Cars、FGVC-Aircraft)に対する大規模な実験は、我々のアプローチが最先端のパフォーマンスを達成することを実証している。 コードは \url{http://dwz1.cc/ci8so8a} で利用可能

Classifying the sub-categories of an object from the same super-category (e.g. bird species, car and aircraft models) in fine-grained visual classification (FGVC) highly relies on discriminative feature representation and accurate region localization. Existing approaches mainly focus on distilling information from high-level features. In this paper, however, we show that by integrating low-level information (e.g. color, edge junctions, texture patterns), performance can be improved with enhanced feature representation and accurately located discriminative regions. Our solution, named Attention Pyramid Convolutional Neural Network (AP-CNN), consists of a) a pyramidal hierarchy structure with a top-down feature pathway and a bottom-up attention pathway, and hence learns both high-level semantic and low-level detailed feature representation, and b) an ROI guided refinement strategy with ROI guided dropblock and ROI guided zoom-in, which refines features with discriminative local regions enhanced and background noises eliminated. The proposed AP-CNN can be trained end-to-end, without the need of additional bounding box/part annotations. Extensive experiments on three commonly used FGVC datasets (CUB-200-2011, Stanford Cars, and FGVC-Aircraft) demonstrate that our approach can achieve state-of-the-art performance. Code available at \url{http://dwz1.cc/ci8so8a}
翻訳日:2023-01-02 14:42:47 公開日:2020-02-09
# データビジョン:アルゴリズムの抽象化を通して学ぶ

Data Vision: Learning to See Through Algorithmic Abstraction ( http://arxiv.org/abs/2002.03387v1 )

ライセンス: Link先を確認
Samir Passi, Steven J. Jackson(参考訳) データを通して学ぶことは、現代のアルゴリズム知識生産の中心である。 しばしば、ルールの機械的応用として表現されるが、アルゴリズムをデータで動作させるには、大量の配置作業が必要である。 本稿では,データ解析学習環境において,機械化や識別の要求が頻繁に発生するかを検討する。 CSCWと社会科学の研究、および2つのデータ学習環境におけるエスノグラフィフィールドワークに基づいて、アルゴリズムの応用が、時としてルールの機械的シーケンスとして、また時には位置決定の配列として見られるかを示す。 ルールベース(ルールバウンドではなく)のプラクティスとしてデータ分析を鋳造することは、効果的なデータビジョンには、形式的抽象化と経験的偶発性という競合する要求に、アナリストが必要となることを示している。 最後に、データビジョンの概念が、データ分析学習、研究、実践におけるヒューマンワークの役割をよりうまく活用する上で、どのように役立つかを論じる。

Learning to see through data is central to contemporary forms of algorithmic knowledge production. While often represented as a mechanical application of rules, making algorithms work with data requires a great deal of situated work. This paper examines how the often-divergent demands of mechanization and discretion manifest in data analytic learning environments. Drawing on research in CSCW and the social sciences, and ethnographic fieldwork in two data learning environments, we show how an algorithm's application is seen sometimes as a mechanical sequence of rules and at other times as an array of situated decisions. Casting data analytics as a rule-based (rather than rule-bound) practice, we show that effective data vision requires would-be analysts to straddle the competing demands of formal abstraction and empirical contingency. We conclude by discussing how the notion of data vision can help better leverage the role of human work in data analytic learning, research, and practice.
翻訳日:2023-01-02 14:35:59 公開日:2020-02-09
# MOGPTK:多出力ガウスプロセスツールキット

MOGPTK: The Multi-Output Gaussian Process Toolkit ( http://arxiv.org/abs/2002.03471v1 )

ライセンス: Link先を確認
Taco de Wolff and Alejandro Cuevas and Felipe Tobar(参考訳) ガウス過程(GP)を用いたマルチチャネルデータモデリングのためのPythonパッケージMOGPTKを提案する。 このツールキットの目的は、研究者、データサイエンティスト、実践者にもMOGP(multi-output GP)モデルを利用できるようにすることである。 MOGPTKはPythonのフロントエンドを使用し、GPflowスイートに依存し、TensorFlowバックエンド上に構築されている。 このツールキットは、データローディング、パラメータ初期化、モデル学習、パラメータ解釈、データインプテーションと外挿を含むgpモデリングのパイプライン全体を実装することを容易にする。 MOGPTKは、文献からの主要なマルチ出力共分散カーネルを実装し、スペクトルベースのパラメータ初期化戦略を実装している。 Jupyterノートブックのソースコード、チュートリアル、例はAPIドキュメントとともにhttp://github.com/GAMES-UChile/mogptkにある。

We present MOGPTK, a Python package for multi-channel data modelling using Gaussian processes (GP). The aim of this toolkit is to make multi-output GP (MOGP) models accessible to researchers, data scientists, and practitioners alike. MOGPTK uses a Python front-end, relies on the GPflow suite and is built on a TensorFlow back-end, thus enabling GPU-accelerated training. The toolkit facilitates implementing the entire pipeline of GP modelling, including data loading, parameter initialization, model learning, parameter interpretation, up to data imputation and extrapolation. MOGPTK implements the main multi-output covariance kernels from literature, as well as spectral-based parameter initialization strategies. The source code, tutorials and examples in the form of Jupyter notebooks, together with the API documentation, can be found at http://github.com/GAMES-UChile/mogptk
翻訳日:2023-01-02 14:35:05 公開日:2020-02-09
# 拡張資産移動予測状態を用いた強化学習型ポートフォリオ管理

Reinforcement-Learning based Portfolio Management with Augmented Asset Movement Prediction States ( http://arxiv.org/abs/2002.05780v1 )

ライセンス: Link先を確認
Yunan Ye, Hengzhi Pei, Boxin Wang, Pin-Yu Chen, Yada Zhu, Jun Xiao, Bo Li(参考訳) ポートフォリオマネジメント(PM)は、最大利益や最小リスクといった投資目標を達成するための基本的な金融計画課題である。 その決定過程は、様々なデータソースからの貴重な情報の連続的導出と、強化学習(RL)の先進的な研究方向である逐次決定最適化を含む。 本稿では,PMのための新しいステート拡張RLフレームワークであるSARLを提案する。 当社の枠組みは, 金融PMにおける2つのユニークな課題に対処することを目的としている。(1) データの均一性 -- 資産毎の収集情報は通常, 多様性, ノイズ, 不均衡(ニュース記事など); (2) 環境の不確実性 -- 金融市場は多目的かつ非定常である。 異質なデータを取り込んで環境の不確実性に対する堅牢性を高めるため,我々は,金融データ(例えば資産価格)のみに基づいて予測を行うか,ニュースなどの代替情報源から得た予測を付加的な状態として,価格移動予測と共に資産情報を強化する。 実世界の2つのデータセットの実験 (i)bitcoin市場及び (ii)7年間のロイターニュース記事を含むハイテク株式市場は、累積利益とリスク調整利益の両面で、既存のpmアプローチに対するsarlの有効性を検証する。 さらに,提案する状態拡張の重要性を実証し,新しい洞察を提供し,標準RL法や他のベースラインよりも性能を著しく向上させるため,広範囲なシミュレーションを行った。

Portfolio management (PM) is a fundamental financial planning task that aims to achieve investment goals such as maximal profits or minimal risks. Its decision process involves continuous derivation of valuable information from various data sources and sequential decision optimization, which is a prospective research direction for reinforcement learning (RL). In this paper, we propose SARL, a novel State-Augmented RL framework for PM. Our framework aims to address two unique challenges in financial PM: (1) data heterogeneity -- the collected information for each asset is usually diverse, noisy and imbalanced (e.g., news articles); and (2) environment uncertainty -- the financial market is versatile and non-stationary. To incorporate heterogeneous data and enhance robustness against environment uncertainty, our SARL augments the asset information with their price movement prediction as additional states, where the prediction can be solely based on financial data (e.g., asset prices) or derived from alternative sources such as news. Experiments on two real-world datasets, (i) Bitcoin market and (ii) HighTech stock market with 7-year Reuters news articles, validate the effectiveness of SARL over existing PM approaches, both in terms of accumulated profits and risk-adjusted profits. Moreover, extensive simulations are conducted to demonstrate the importance of our proposed state augmentation, providing new insights and boosting performance significantly over standard RL-based PM method and other baselines.
翻訳日:2023-01-02 14:34:49 公開日:2020-02-09
# 金融応用のためのディープラーニング : 調査

Deep Learning for Financial Applications : A Survey ( http://arxiv.org/abs/2002.05786v1 )

ライセンス: Link先を確認
Ahmet Murat Ozbayoglu, Mehmet Ugur Gudelek, Omer Berat Sezer(参考訳) 金融における計算知能は、過去数十年間、学界と金融業界の両方で非常に人気のあるトピックである。 多くの研究が出版され、様々なモデルが生まれた。 一方、機械学習(ML)分野において、Deep Learning(DL)は古典的なモデルよりもパフォーマンスが優れていたために、最近多くの注目を集め始めた。 dlの様々な実装が現在存在し、幅広い関心が続いている。 金融はDLモデルが普及し始めた特定の分野であるが、プレイフィールドは広く開放されており、多くの研究機会が残っている。 本稿では、現在、金融アプリケーション向けに開発されたDLモデルの最新のスナップショットを提供する試みである。 我々は、これらの作品を財務上の目的のサブフィールドに従って分類するだけでなく、dlモデルに基づいて分析した。 さらに,将来的な実装の可能性を見極め,この分野の現在進行中の研究の道筋を強調した。

Computational intelligence in finance has been a very popular topic for both academia and financial industry in the last few decades. Numerous studies have been published resulting in various models. Meanwhile, within the Machine Learning (ML) field, Deep Learning (DL) started getting a lot of attention recently, mostly due to its outperformance over the classical models. Lots of different implementations of DL exist today, and the broad interest is continuing. Finance is one particular area where DL models started getting traction, however, the playfield is wide open, a lot of research opportunities still exist. In this paper, we tried to provide a state-of-the-art snapshot of the developed DL models for financial applications, as of today. We not only categorized the works according to their intended subfield in finance but also analyzed them based on their DL models. In addition, we also aimed at identifying possible future implementations and highlighted the pathway for the ongoing research within the field.
翻訳日:2023-01-02 14:34:21 公開日:2020-02-09
# 01損失を伴うロバスト二項分類

Robust binary classification with the 01 loss ( http://arxiv.org/abs/2002.03444v1 )

ライセンス: Link先を確認
Yunzhe Xue, Meiyan Xie, Usman Roshan(参考訳) 01損失は、対流損失関数と比較して、外れ値に頑健であり、ノイズデータに耐性がある。 我々は、01の損失は敵の攻撃に対してより堅牢であるかもしれないと推測する。 そこで本研究では,線形01損失分類器と単一隠れ層01損失ニューラルネットワークのための確率的座標降下アルゴリズムを開発した。 勾配が存在しないため、固定エポックに対するデータのランダムな部分集合の座標を反復的に更新する。 提案手法は,複数の画像ベンチマークにおいて,線形支持ベクトルマシンとロジスティック損失単一隠蔽層ネットワークとを高速かつ精度良く比較し,凸損失を伴うテスト精度が十分であることを示す。 次に、同じ画像ベンチマークに対して、正確に訓練された代用モデルブラックボックス攻撃を施し、凸型モデルよりも堅牢であることを示す。 CIFAR10 のクラス 0 と 1 のバイナリ分類タスクでは、逆摂動 0.0625 であり、MLP01 のネットワークは精度が 27 % 、MLP は 83 % である。 同様に、STL10 と ImageNet のクラス 0 と 1 のバイナリ分類では、MLP01 ネットワークは 21 % と 20 % を失い、MLP-ロジスティックは 67 % と 45 % を失う。 十分に分離可能なデータセットであるMNISTでは、MLP-logisticに匹敵するMLP01を見つけ、シミュレーションの下で、どのように、なぜ我々の01損失解法がより堅牢でないのかを示す。 次に、MNISTや他の全てのデータセットに対するロバスト性を大幅に向上させ、クリーンなテスト精度を維持する線形01損失解法に対する逆トレーニングを提案する。 最後に,トラヒックサインや顔認識による攻撃を防ぐ手法の実用化について述べる。 本稿では, 01損失による攻撃, 代用モデルの精度, および多クラス, 01損失の畳み込み, さらなる敵の訓練など, 今後の課題について論じる。

The 01 loss is robust to outliers and tolerant to noisy data compared to convex loss functions. We conjecture that the 01 loss may also be more robust to adversarial attacks. To study this empirically we have developed a stochastic coordinate descent algorithm for a linear 01 loss classifier and a single hidden layer 01 loss neural network. Due to the absence of the gradient we iteratively update coordinates on random subsets of the data for fixed epochs. We show our algorithms to be fast and comparable in accuracy to the linear support vector machine and logistic loss single hidden layer network for binary classification on several image benchmarks, thus establishing that our method is on-par in test accuracy with convex losses. We then subject them to accurately trained substitute model black box attacks on the same image benchmarks and find them to be more robust than convex counterparts. On CIFAR10 binary classification task between classes 0 and 1 with adversarial perturbation of 0.0625 we see that the MLP01 network loses 27\% in accuracy whereas the MLP-logistic counterpart loses 83\%. Similarly on STL10 and ImageNet binary classification between classes 0 and 1 the MLP01 network loses 21\% and 20\% while MLP-logistic loses 67\% and 45\% respectively. On MNIST that is a well-separable dataset we find MLP01 comparable to MLP-logistic and show under simulation how and why our 01 loss solver is less robust there. We then propose adversarial training for our linear 01 loss solver that significantly improves its robustness on MNIST and all other datasets and retains clean test accuracy. Finally we show practical applications of our method to deter traffic sign and facial recognition adversarial attacks. We discuss attacks with 01 loss, substitute model accuracy, and several future avenues like multiclass, 01 loss convolutions, and further adversarial training.
翻訳日:2023-01-02 14:28:07 公開日:2020-02-09
# フェアラー顔認識における不斉拒絶損失

Asymmetric Rejection Loss for Fairer Face Recognition ( http://arxiv.org/abs/2002.03276v1 )

ライセンス: Link先を確認
Haoyu Qin(参考訳) 顔認識のパフォーマンスは近年大幅に向上しており、主にディープニューラルネットワークが強力な顔表現を学習するために活用できる大規模な顔画像データセットが利用可能になっている。 しかし、近年の研究では、コーカサス人のアイデンティティが他の民族の大部分を占める訓練データセットにおける人種的不均衡が主な原因で、異なる民族集団間での顔認識性能の違いが示されている。 これは実際には、顔データセットが通常収集されるセロブドムにおける非コーカサス民族集団の過小表示の症状であり、過小表示集団のラベル付きデータの取得を困難にしている。 本稿では,非表示画像の非表示をフル活用し,顔認識モデルの人種的偏見を低減することを目的とした非対称的退避損失を提案する。 それぞれのラベル付きイメージをユニークなクラスとみなすが、2つのラベル付きサンプルが別のクラスからのものであることを保証できないため、ラベル付きデータとラベルなしデータの両方を損失形式において非対称に活用する。 広範な実験により, 人種差別バイアスを緩和し, 最先端の半スーパービジョン法を上回って, 提案手法の強みが示された。 少数民族集団のパフォーマンスは増加し、上位民族集団の成績はほぼ変わらずである。

Face recognition performance has seen a tremendous gain in recent years, mostly due to the availability of large-scale face images dataset that can be exploited by deep neural networks to learn powerful face representations. However, recent research has shown differences in face recognition performance across different ethnic groups mostly due to the racial imbalance in the training datasets where Caucasian identities largely dominate other ethnicities. This is actually symptomatic of the under-representation of non-Caucasian ethnic groups in the celebdom from which face datasets are usually gathered, rendering the acquisition of labeled data of the under-represented groups challenging. In this paper, we propose an Asymmetric Rejection Loss, which aims at making full use of unlabeled images of those under-represented groups, to reduce the racial bias of face recognition models. We view each unlabeled image as a unique class, however as we cannot guarantee that two unlabeled samples are from a distinct class we exploit both labeled and unlabeled data in an asymmetric manner in our loss formalism. Extensive experiments show our method's strength in mitigating racial bias, outperforming state-of-the-art semi-supervision methods. Performance on the under-represented ethnicity groups increases while that on the well-represented group is nearly unchanged.
翻訳日:2023-01-02 14:27:23 公開日:2020-02-09
# 大規模言語モデルによるテキスト検出の限界

Limits of Detecting Text Generated by Large-Scale Language Models ( http://arxiv.org/abs/2002.03438v1 )

ライセンス: Link先を確認
Lav R. Varshney, Nitish Shirish Keskar, and Richard Socher(参考訳) 誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。 本稿では,テキストを真または生成と分類するための仮説検証問題として,大規模言語モデル出力検出を定式化する。 特定の言語モデルに対する誤り指数は、言語生成性能の標準尺度である、その難易度の観点から有界であることを示す。 人間の言語が定常的でエルゴード的な仮定の下では、定式化は特定の言語モデルから最大極大言語モデルまで、k次マルコフ近似のクラスの中で拡張され、エラー確率が特徴付けられる。 セマンティックサイド情報を取り入れた議論も行われている。

Some consider large-scale language models that can generate long and coherent pieces of text as dangerous, since they may be used in misinformation campaigns. Here we formulate large-scale language model output detection as a hypothesis testing problem to classify text as genuine or generated. We show that error exponents for particular language models are bounded in terms of their perplexity, a standard measure of language generation performance. Under the assumption that human language is stationary and ergodic, the formulation is extended from considering specific language models to considering maximum likelihood language models, among the class of k-order Markov approximations; error probabilities are characterized. Some discussion of incorporating semantic side information is also given.
翻訳日:2023-01-02 14:26:51 公開日:2020-02-09
# データサイエンスにおける信頼--コーポレートデータサイエンスプロジェクトにおけるコラボレーション、翻訳、説明責任

Trust in Data Science: Collaboration, Translation, and Accountability in Corporate Data Science Projects ( http://arxiv.org/abs/2002.03389v1 )

ライセンス: Link先を確認
Samir Passi, Steven J. Jackson(参考訳) 応用および実世界の環境におけるデータサイエンスシステムの信頼性は、位置し、実用的で、進行中の作業形態を通じて、特定の緊張の解消から生まれる。 CSCWの研究、批判的データ研究、科学の歴史と社会学、および企業データサイエンスチームとの6ヶ月にわたる没入型エスノグラフィフィールドワークに基づき、応用データサイエンス研究における4つの一般的な緊張関係を記述した: (un)equivocal numbers, (counter)直観的知識, (in)credible data, (in)scrutable model。 組織的アクターが、懐疑主義、評価、信頼性の実践を通じて、乱雑で不確実な分析条件下で信頼を確立し、再交渉する方法を示す。 実世界のデータサイエンスのコラボレーティブで異質な性質を高く評価することにより,企業データサイエンスにおける信頼管理が,事前処理や定量化だけでなく,交渉や翻訳にも依存することを示す。 我々は,CSCW内外におけるデータサイエンス研究と実践における知見の意味を論じる。

The trustworthiness of data science systems in applied and real-world settings emerges from the resolution of specific tensions through situated, pragmatic, and ongoing forms of work. Drawing on research in CSCW, critical data studies, and history and sociology of science, and six months of immersive ethnographic fieldwork with a corporate data science team, we describe four common tensions in applied data science work: (un)equivocal numbers, (counter)intuitive knowledge, (in)credible data, and (in)scrutable models. We show how organizational actors establish and re-negotiate trust under messy and uncertain analytic conditions through practices of skepticism, assessment, and credibility. Highlighting the collaborative and heterogeneous nature of real-world data science, we show how the management of trust in applied corporate data science settings depends not only on pre-processing and quantification, but also on negotiation and translation. We conclude by discussing the implications of our findings for data science research and practice, both within and beyond CSCW.
翻訳日:2023-01-02 14:26:36 公開日:2020-02-09
# 重要度駆動型ディープラーニングシステムテスト

Importance-Driven Deep Learning System Testing ( http://arxiv.org/abs/2002.03433v1 )

ライセンス: Link先を確認
Simos Gerasimou, Hasan Ferit Eniser, Alper Sen, Alper Cakan(参考訳) ディープラーニング(DL)システムは、画像認識や機械翻訳といった複雑なタスクを解く能力のために、インテリジェントなエンジニアリングアプリケーションにとって重要な実現手段である。 それでも、安全およびセキュリティクリティカルなアプリケーションでDLシステムを使用するには、信頼性の高い運用に関するテスト証拠を提供する必要がある。 この方向に関する最近の研究は、彼らの正しい振る舞いに対する自信を高める手段として、従来のソフトウェアエンジニアリングからテスト基準を適用することに焦点を当てている。 しかし、これらのシステムで示される本質的な特性を捉えるには不十分である。 DeepImportanceは、DLシステムにおいて、IDC(Importance-Driven Test Adequacy criterion)を伴う体系的なテスト手法である。 idcを適用することで、dlシステムコンポーネントの重要性を階層的に理解し、この情報を用いてテストセットの意味的多様性を評価することができる。 複数のDLデータセットと最先端の逆数生成技術を用いた実験的なDLシステム評価は、DeepImportanceの有用性と有効性を示し、より堅牢なDLシステムの構築を支援する能力を示している。

Deep Learning (DL) systems are key enablers for engineering intelligent applications due to their ability to solve complex tasks such as image recognition and machine translation. Nevertheless, using DL systems in safety- and security-critical applications requires to provide testing evidence for their dependable operation. Recent research in this direction focuses on adapting testing criteria from traditional software engineering as a means of increasing confidence for their correct behaviour. However, they are inadequate in capturing the intrinsic properties exhibited by these systems. We bridge this gap by introducing DeepImportance, a systematic testing methodology accompanied by an Importance-Driven (IDC) test adequacy criterion for DL systems. Applying IDC enables to establish a layer-wise functional understanding of the importance of DL system components and use this information to assess the semantic diversity of a test set. Our empirical evaluation on several DL systems, across multiple DL datasets and with state-of-the-art adversarial generation techniques demonstrates the usefulness and effectiveness of DeepImportance and its ability to support the engineering of more robust DL systems.
翻訳日:2023-01-02 14:26:19 公開日:2020-02-09
# 地域設定におけるプライバシー保護画像分類

Privacy-Preserving Image Classification in the Local Setting ( http://arxiv.org/abs/2002.03261v1 )

ライセンス: Link先を確認
Sen Wang, J.Morris Chang(参考訳) 画像データは、日常生活において個人や商業業者によって大きく生産され、広告、医療、交通分析など様々な分野で使用されてきた。 近年,緊急対応などの社会的有用性においても,画像データの重要性が高まっている。 しかし、プライバシーの懸念は、画像が個人情報や場所などの機密情報を明らかにする可能性があるため、画像データのさらなる探索を妨げる最大の障害となる。 最近開発されたローカル微分プライバシ(LDP)は、データ所有者がランダムに入力を摂動させ、リリース前にデータの妥当な識別性を提供する、有望なソリューションを提供する。 本稿では,データ所有者が画像を保持し,信頼できないデータを入力として機械学習モデルに適合させたい場合の2つの画像分類問題を考える。 画像のプライバシを保護するため,データユーザに公開する前に画像表現をローカルに摂動させることを提案する。 次に,摂動が<epsilon}-LDPを満足し,カウントベースおよび距離ベース機械学習アルゴリズムに関するデータの有用性に与える影響を分析し,拡張可能なドメインサイズで画像表現を生成する教師付き画像特徴抽出器DCAConvを提案する。 実験の結果,dcaconvは複数の画像ベンチマークデータセットに関するプライバシを維持しつつ,高データユーティリティを維持できることがわかった。

Image data has been greatly produced by individuals and commercial vendors in the daily life, and it has been used across various domains, like advertising, medical and traffic analysis. Recently, image data also appears to be greatly important in social utility, like emergency response. However, the privacy concern becomes the biggest obstacle that prevents further exploration of image data, due to that the image could reveal sensitive information, like the personal identity and locations. The recent developed Local Differential Privacy (LDP) brings us a promising solution, which allows the data owners to randomly perturb their input to provide the plausible deniability of the data before releasing. In this paper, we consider a two-party image classification problem, in which data owners hold the image and the untrustworthy data user would like to fit a machine learning model with these images as input. To protect the image privacy, we propose to locally perturb the image representation before revealing to the data user. Subsequently, we analyze how the perturbation satisfies {\epsilon}-LDP and affect the data utility regarding count-based and distance-based machine learning algorithm, and propose a supervised image feature extractor, DCAConv, which produces an image representation with scalable domain size. Our experiments show that DCAConv could maintain a high data utility while preserving the privacy regarding multiple image benchmark datasets.
翻訳日:2023-01-02 14:25:59 公開日:2020-02-09
# 個々の関数の指標を用いない凸有限和の最小化の複雑さについて

On the Complexity of Minimizing Convex Finite Sums Without Using the Indices of the Individual Functions ( http://arxiv.org/abs/2002.03273v1 )

ライセンス: Link先を確認
Yossi Arjevani, Amit Daniely, Stefanie Jegelka, Hongzhou Lin(参考訳) l$-smooth $\mu$-strongly convex 有限和を最小化するランダム化インクリメンタルメソッドの最近の進歩は、$\tilde{o}((n+\sqrt{n l/\mu})\log(1/\epsilon))$ と $o(n+\sqrt{nl/\epsilon})$ という厳密な複雑さに到達している。 増分法とは異なり、有限和に対する確率的手法は、各反復において個々の関数が取り組まれているという明示的な知識に頼らず、少なくとも$O(1/n^2)$-最適解を得るためには$Omega(n^2)$繰り返しを実行する必要がある。 この研究では、有限和の有限ノイズ構造を利用して、グローバルオラクルモデルの下で一致する$o(n^2)$-upperバウンドを導出し、この下限が本当にタイトであることを示す。 同様のアプローチで、SVRG の新規な適応法を提案し、それぞれ $\mu>0$ と $\mu=0$ に対して $\tilde{O}((n^2+n\sqrt{L/\mu})\log(1/\epsilon))$ と $O(n\sqrt{L/\epsilon})$ の複雑性境界を実現する。 我々の境界は w.h.p. を保持し、既存の下界の $\tilde{\Omega}(n^2+\sqrt{nL/\epsilon)$ と $\tilde{\Omega}(n^2+\sqrt{nL/\epsilon})$ をそれぞれ $\mu>0$ と $\mu=0$ で一致させる。

Recent advances in randomized incremental methods for minimizing $L$-smooth $\mu$-strongly convex finite sums have culminated in tight complexity of $\tilde{O}((n+\sqrt{n L/\mu})\log(1/\epsilon))$ and $O(n+\sqrt{nL/\epsilon})$, where $\mu>0$ and $\mu=0$, respectively, and $n$ denotes the number of individual functions. Unlike incremental methods, stochastic methods for finite sums do not rely on an explicit knowledge of which individual function is being addressed at each iteration, and as such, must perform at least $\Omega(n^2)$ iterations to obtain $O(1/n^2)$-optimal solutions. In this work, we exploit the finite noise structure of finite sums to derive a matching $O(n^2)$-upper bound under the global oracle model, showing that this lower bound is indeed tight. Following a similar approach, we propose a novel adaptation of SVRG which is both \emph{compatible with stochastic oracles}, and achieves complexity bounds of $\tilde{O}((n^2+n\sqrt{L/\mu})\log(1/\epsilon))$ and $O(n\sqrt{L/\epsilon})$, for $\mu>0$ and $\mu=0$, respectively. Our bounds hold w.h.p. and match in part existing lower bounds of $\tilde{\Omega}(n^2+\sqrt{nL/\mu}\log(1/\epsilon))$ and $\tilde{\Omega}(n^2+\sqrt{nL/\epsilon})$, for $\mu>0$ and $\mu=0$, respectively.
翻訳日:2023-01-02 14:25:34 公開日:2020-02-09
# ドメイン転送とデータ合成を用いた低リソースデータの抽象要約

Abstractive Summarization for Low Resource Data using Domain Transfer and Data Synthesis ( http://arxiv.org/abs/2002.03407v1 )

ライセンス: Link先を確認
Ahmed Magooda, Diane Litman(参考訳) 抽象的な要約モデルの訓練は通常大量のデータを必要とし、多くの領域の制限となる。 本稿では,学生リフレクションの小さなコーパスに適用することで,近年の抽象要約手法の性能を向上させるために,ドメイン転送とデータ合成について検討する。 まず,新聞データにトレーニングされたアートモデルのチューニング状態が学生のリフレクションデータのパフォーマンスを向上させるかどうかを検討した。 評価の結果, 調整モデルにより生成された要約は, 学生反射データや新聞データにのみ訓練されたモデルと比較して高いROUGEスコアを得た。 調律モデルはまた,抽出的要約ベースラインよりも高いスコアを達成し,人間の評価においてより一貫性と可読性のある要約を生成すると判断された。 第2に,学生データの要約を合成することで,さらなるパフォーマンス向上が期待できるか検討した。 我々は,新しいデータを合成するためのテンプレートベースモデルを提案し,トレーニングに組み込むとROUGEスコアがさらに増加することを示した。 最後に、データ合成とドメイン転送を組み合わせることで、ROUGEのスコアは2つのアプローチのうちの1つで比較できることを示した。

Training abstractive summarization models typically requires large amounts of data, which can be a limitation for many domains. In this paper we explore using domain transfer and data synthesis to improve the performance of recent abstractive summarization methods when applied to small corpora of student reflections. First, we explored whether tuning state of the art model trained on newspaper data could boost performance on student reflection data. Evaluations demonstrated that summaries produced by the tuned model achieved higher ROUGE scores compared to model trained on just student reflection data or just newspaper data. The tuned model also achieved higher scores compared to extractive summarization baselines, and additionally was judged to produce more coherent and readable summaries in human evaluations. Second, we explored whether synthesizing summaries of student data could additionally boost performance. We proposed a template-based model to synthesize new data, which when incorporated into training further increased ROUGE scores. Finally, we showed that combining data synthesis with domain transfer achieved higher ROUGE scores compared to only using one of the two approaches.
翻訳日:2023-01-02 14:18:04 公開日:2020-02-09
# 局所的非パラメトリックメタラーニング

Local Nonparametric Meta-Learning ( http://arxiv.org/abs/2002.03272v1 )

ライセンス: Link先を確認
Wonjoon Goo, Scott Niekum(参考訳) メタラーニングの中心的な目標は、その集合に対する適切な帰納的バイアスを学習することによって、一連のタスクに対して迅速に適応できる学習規則を見つけることである。 ほとんどのメタ学習アルゴリズムは、この帰納バイアスをエンコードする \textit{global} 学習ルールを見つけようとする。 しかし,固定サイズの表現で表されるグローバルな学習ルールは,タスクセットの適切な表現力の選択が難しいため,メタアンダーフィットやオーバーフィットの傾向がある。 たとえ正しく選択されたとしても、グローバルで固定サイズの表現は、たとえ同じ帰納的バイアスが適切であっても、特定の種類の分散タスクと向き合うと、しばしば失敗することを示している。 そこで本研究では,近年の注意型および機能型勾配型メタラーニングの考え方に基づいて,メタトレーニングされた局所学習ルールを用いた新しい非パラメトリックメタラーニングアルゴリズムを提案する。 いくつかのメタ回帰問題において,局所的,非パラメトリック的アプローチによるメタ一般化結果の改善と,ロボットベンチマークOmnipushにおける最先端結果の達成を示す。

A central goal of meta-learning is to find a learning rule that enables fast adaptation across a set of tasks, by learning the appropriate inductive bias for that set. Most meta-learning algorithms try to find a \textit{global} learning rule that encodes this inductive bias. However, a global learning rule represented by a fixed-size representation is prone to meta-underfitting or -overfitting since the right representational power for a task set is difficult to choose a priori. Even when chosen correctly, we show that global, fixed-size representations often fail when confronted with certain types of out-of-distribution tasks, even when the same inductive bias is appropriate. To address these problems, we propose a novel nonparametric meta-learning algorithm that utilizes a meta-trained local learning rule, building on recent ideas in attention-based and functional gradient-based meta-learning. In several meta-regression problems, we show improved meta-generalization results using our local, nonparametric approach and achieve state-of-the-art results in the robotics benchmark, Omnipush.
翻訳日:2023-01-02 14:17:45 公開日:2020-02-09
# ファインコントロールカーネルを用いた高次特徴相互作用の学習

Learning High Order Feature Interactions with Fine Control Kernels ( http://arxiv.org/abs/2002.03298v1 )

ライセンス: Link先を確認
Hristo Paskov, Alex Paskov, Robert West(参考訳) 基礎となるアトミックな特徴セット間の全ての可能な乗法的相互作用を特徴として使用するスパース統計モデルを学ぶための方法論を提供する。 結果の最適化問題は指数関数的に小さいが,提案手法はこれらの問題を正確に解けるアルゴリズムや,高度に相関した特徴を組み合わせた近似解を提供するアルゴリズムに導かれる。 また、Fenchel Dualityをベースとし、カーネルメソッドを連想させるアルゴリズムパラダイムであるFine Control Kernelフレームワークも導入している。 その理論は、大きなスパース学習問題に適合し、相互作用の効率的な特徴スクリーニングルールにつながる。 これらのルールは、マーケットバスケット分析のための apriori アルゴリズムにインスパイアされており、これは、細粒度制御カーネルのパービューに該当するものであり、lasso や sparse matrix 推定を含む複数の学習問題に適用することができる。 バイオメディカルデータセットに関する実験は、最先端の精度と解釈可能な相互作用モデルを効率的に作成するアルゴリズムを導出する手法の有効性を実証する。

We provide a methodology for learning sparse statistical models that use as features all possible multiplicative interactions among an underlying atomic set of features. While the resulting optimization problems are exponentially sized, our methodology leads to algorithms that can often solve these problems exactly or provide approximate solutions based on combining highly correlated features. We also introduce an algorithmic paradigm, the Fine Control Kernel framework, so named because it is based on Fenchel Duality and is reminiscent of kernel methods. Its theory is tailored to large sparse learning problems, and it leads to efficient feature screening rules for interactions. These rules are inspired by the Apriori algorithm for market basket analysis -- which also falls under the purview of Fine Control Kernels, and can be applied to a plurality of learning problems including the Lasso and sparse matrix estimation. Experiments on biomedical datasets demonstrate the efficacy of our methodology in deriving algorithms that efficiently produce interactions models which achieve state-of-the-art accuracy and are interpretable.
翻訳日:2023-01-02 14:17:06 公開日:2020-02-09
# 実行時局所ロバスト性検証によるニューラルネットワークの入力検証

Input Validation for Neural Networks via Runtime Local Robustness Verification ( http://arxiv.org/abs/2002.03339v1 )

ライセンス: Link先を確認
Jiangchao Liu, Liqian Chen, Antoine Mine and Ji Wang(参考訳) 局所ロバスト性検証は、ニューラルネットワークがロバストなwrtであることを検証する。 特定の距離内の特定の入力に対する摂動。 この距離ロバスト性半径と呼んでいます 正当分類入力のロバスト性半径は、特に強敵攻撃による攻撃を含む誤分類入力のロバスト性半径よりもはるかに大きいことが観察された。 別の観察では、正しく分類された入力のロバスト性半径はしばしば正規分布に従う。 これら2つの観測に基づいて,実行時局所ロバストネス検証によるニューラルネットワークの入力検証を提案する。 実験により,ニューラルネットワークを敵の例から保護し,精度を向上させることができることがわかった。

Local robustness verification can verify that a neural network is robust wrt. any perturbation to a specific input within a certain distance. We call this distance Robustness Radius. We observe that the robustness radii of correctly classified inputs are much larger than that of misclassified inputs which include adversarial examples, especially those from strong adversarial attacks. Another observation is that the robustness radii of correctly classified inputs often follow a normal distribution. Based on these two observations, we propose to validate inputs for neural networks via runtime local robustness verification. Experiments show that our approach can protect neural networks from adversarial examples and improve their accuracies.
翻訳日:2023-01-02 14:15:56 公開日:2020-02-09
# グラフインスタンスモデリングのためのSegmented Graph-Bert

Segmented Graph-Bert for Graph Instance Modeling ( http://arxiv.org/abs/2002.03283v1 )

ライセンス: Link先を確認
Jiawei Zhang(参考訳) グラフインスタンス表現学習では、多様なグラフインスタンスサイズとグラフノードの順序のないプロパティの両方が、既存の表現学習モデルが動作しない主な障害となっている。 本稿では,当初ノード表現学習タスク用に設計されたグラフインスタンス表現学習における Graph-BERT の有効性について検討する。 本論文では,新しい問題設定に適用するため,SEG-BERT(Segmented GRAPH-BERT)と呼ばれるセグメントアーキテクチャで再設計する。 SEG-BERTはノード順の入力や機能コンポーネントをもはや含んでおらず、グラフノードの順序なしプロパティを自然に処理することができる。 さらにSEG-BERTにはセグメンテーションアーキテクチャがあり、グラフインスタンスのサイズを統一する3つの戦略、すなわち、フルインプット、パディング/プルーニング、セグメントシフトを導入している。 SEG-BERTは教師なしで事前訓練可能で、新しいタスクに直接、あるいは必要な微調整で転送することができる。 7つのグラフ・インスタンス・ベンチマーク・データセットを用いてSEG-BERTの有効性を検証した。

In graph instance representation learning, both the diverse graph instance sizes and the graph node orderless property have been the major obstacles that render existing representation learning models fail to work. In this paper, we will examine the effectiveness of GRAPH-BERT on graph instance representation learning, which was designed for node representation learning tasks originally. To adapt GRAPH-BERT to the new problem settings, we re-design it with a segmented architecture instead, which is also named as SEG-BERT (Segmented GRAPH-BERT) for reference simplicity in this paper. SEG-BERT involves no node-order-variant inputs or functional components anymore, and it can handle the graph node orderless property naturally. What's more, SEG-BERT has a segmented architecture and introduces three different strategies to unify the graph instance sizes, i.e., full-input, padding/pruning and segment shifting, respectively. SEG-BERT is pre-trainable in an unsupervised manner, which can be further transferred to new tasks directly or with necessary fine-tuning. We have tested the effectiveness of SEG-BERT with experiments on seven graph instance benchmark datasets, and SEG-BERT can out-perform the comparison methods on six out of them with significant performance advantages.
翻訳日:2023-01-02 14:08:36 公開日:2020-02-09
# Graph-Bertを用いたグラフニューラル距離距離学習

Graph Neural Distance Metric Learning with Graph-Bert ( http://arxiv.org/abs/2002.03427v1 )

ライセンス: Link先を確認
Jiawei Zhang(参考訳) グラフ距離メトリック学習は、グラフクラスタリング、グラフ分類、グラフマッチングなど、多くのグラフ学習問題の基盤となっている。 グラフ距離メトリック(またはグラフカーネル)学習に関する既存の研究は、これらのメトリクスの基本的な性質(例えば、非負、識別不能、対称性、三角不等式)を維持することができない。 本稿では,新しいグラフニューラルネットワークを用いた距離距離距離学習手法,すなわちGB-DISTANCE(GRAPH-BERTベースニューラルディスタンス)を紹介する。 注意機構のみに基づいて、gb距離は事前学習されたグラフベルトモデルに基づいて、グラフインスタンス表現を効果的に学習することができる。 既存の教師なし/教師なしのメトリクスとは異なり、GB-DISTANCEは半教師付きで効果的に学習することができる。 さらに、GB-DISTANCEは上記の距離計量の基本特性も維持できる。 いくつかのベンチマークグラフデータセットで広範な実験が行われ、その結果、gb距離は既存のベースラインメソッド、特に最近のグラフニューラルネットワークモデルに基づくグラフメトリクスよりも優れており、グラフ距離を計算する上で大きなギャップがあることが示されている。

Graph distance metric learning serves as the foundation for many graph learning problems, e.g., graph clustering, graph classification and graph matching. Existing research works on graph distance metric (or graph kernels) learning fail to maintain the basic properties of such metrics, e.g., non-negative, identity of indiscernibles, symmetry and triangle inequality, respectively. In this paper, we will introduce a new graph neural network based distance metric learning approaches, namely GB-DISTANCE (GRAPH-BERT based Neural Distance). Solely based on the attention mechanism, GB-DISTANCE can learn graph instance representations effectively based on a pre-trained GRAPH-BERT model. Different from the existing supervised/unsupervised metrics, GB-DISTANCE can be learned effectively in a semi-supervised manner. In addition, GB-DISTANCE can also maintain the distance metric basic properties mentioned above. Extensive experiments have been done on several benchmark graph datasets, and the results demonstrate that GB-DISTANCE can out-perform the existing baseline methods, especially the recent graph neural network model based graph metrics, with a significant gap in computing the graph distance.
翻訳日:2023-01-02 14:08:14 公開日:2020-02-09
# ディープニューラルネットワークを用いた医用画像の登録:総合的レビュー

Medical Image Registration Using Deep Neural Networks: A Comprehensive Review ( http://arxiv.org/abs/2002.03401v1 )

ライセンス: Link先を確認
Hamid Reza Boveiri, Raouf Khayami, Reza Javidan, Ali Reza MehdiZadeh(参考訳) 画像ガイドによる介入は、画像登録の問題が実際に対処すべき最も複雑で複雑な問題と見なされるべき多くの患者の命を救っている。 一方で、現代の多コアgpuにディープニューラルネットワークを実装する可能性によって、機械学習分野の最近の大きな進歩は、登録が例外ではない多くの医療アプリケーションと挑戦するための有望な窓を開いた。 本稿では,深層ニューラルネットワークを用いた医用画像登録として知られる最先端の文献について概観する。 レビューは体系的であり、以前この分野で出版されたすべての関連作品を含んでいる。 主な概念,異なる観点からの統計的分析,課題の克服,新奇さと主な貢献,キーエナリング技術,今後の方向性,今後の動向などについて,この総合的なレビューで詳細に論じ,調査した。 このレビューは、最先端の研究と将来の文学への貢献を求めている分野の読者に対して、深い理解と洞察を与えてくれる。

Image-guided interventions are saving the lives of a large number of patients where the image registration problem should indeed be considered as the most complex and complicated issue to be tackled. On the other hand, the recently huge progress in the field of machine learning made by the possibility of implementing deep neural networks on the contemporary many-core GPUs opened up a promising window to challenge with many medical applications, where the registration is not an exception. In this paper, a comprehensive review on the state-of-the-art literature known as medical image registration using deep neural networks is presented. The review is systematic and encompasses all the related works previously published in the field. Key concepts, statistical analysis from different points of view, confiding challenges, novelties and main contributions, key-enabling techniques, future directions and prospective trends all are discussed and surveyed in details in this comprehensive review. This review allows a deep understanding and insight for the readers active in the field who are investigating the state-of-the-art and seeking to contribute the future literature.
翻訳日:2023-01-02 14:07:53 公開日:2020-02-09
# 名前付きエンティティ認識における事前学習モデルの応用

Application of Pre-training Models in Named Entity Recognition ( http://arxiv.org/abs/2002.08902v1 )

ライセンス: Link先を確認
Yu Wang, Yining Sun, Zuchang Ma, Lisheng Gao, Yang Xu, Ting Sun(参考訳) 名前付きエンティティ認識(NER)は、非構造化データからエンティティを抽出する自然言語処理(NLP)タスクである。 NERの以前の手法は、機械学習やディープラーニングに基づいていた。 近年,複数のNLPタスクの性能が大幅に向上した。 本稿では、まず、BERT、ERNIE、ERNIE2.0-tiny、RoBERTaの4つの一般的な事前学習モデルのアーキテクチャと事前学習タスクを紹介する。 次に,これらの事前学習モデルを微調整によりnerタスクに適用し,nerタスクに対する異なるモデルアーキテクチャと事前学習タスクの効果を比較する。 実験の結果,RoBERTaはMSRA-2006データセット上で最先端の結果を得た。

Named Entity Recognition (NER) is a fundamental Natural Language Processing (NLP) task to extract entities from unstructured data. The previous methods for NER were based on machine learning or deep learning. Recently, pre-training models have significantly improved performance on multiple NLP tasks. In this paper, firstly, we introduce the architecture and pre-training tasks of four common pre-training models: BERT, ERNIE, ERNIE2.0-tiny, and RoBERTa. Then, we apply these pre-training models to a NER task by fine-tuning, and compare the effects of the different model architecture and pre-training tasks on the NER task. The experiment results showed that RoBERTa achieved state-of-the-art results on the MSRA-2006 dataset.
翻訳日:2023-01-02 14:07:28 公開日:2020-02-09
# 車両経路問題に対する動的注意モデルを用いた深部強化学習アルゴリズム

A Deep Reinforcement Learning Algorithm Using Dynamic Attention Model for Vehicle Routing Problems ( http://arxiv.org/abs/2002.03282v1 )

ライセンス: Link先を確認
Bo Peng and Jiahai Wang and Zizhen Zhang(参考訳) 近年の研究では、機械学習は、組合せ最適化問題を解決するために人間によって設計されたものよりも優れたヒューリスティックスを学ぶ可能性があることが示されている。 ディープニューラルネットワークは、インクリメンタルに実現可能なソリューションを構築するための入力インスタンスを特徴付けるために使用される。 近年,ルーティング問題を解決するための注意モデルが提案されている。 このモデルでは、インスタンスの状態は時間とともに固定されるノード機能によって表現されます。 しかし、実際には、異なる構成ステップで作成したモデルの決定に従ってインスタンスの状態が変更され、ノードの特徴が対応するように更新される。 そこで本稿では,動的エンコーダ・デコーダアーキテクチャを用いた動的注意モデルを提案する。 本稿では,NPハード問題,車両ルーティング問題に焦点をあてる。 実験の結果,本モデルは従来の手法よりも優れており,優れた一般化性能を示した。

Recent researches show that machine learning has the potential to learn better heuristics than the one designed by human for solving combinatorial optimization problems. The deep neural network is used to characterize the input instance for constructing a feasible solution incrementally. Recently, an attention model is proposed to solve routing problems. In this model, the state of an instance is represented by node features that are fixed over time. However, the fact is, the state of an instance is changed according to the decision that the model made at different construction steps, and the node features should be updated correspondingly. Therefore, this paper presents a dynamic attention model with dynamic encoder-decoder architecture, which enables the model to explore node features dynamically and exploit hidden structure information effectively at different construction steps. This paper focuses on a challenging NP-hard problem, vehicle routing problem. The experiments indicate that our model outperforms the previous methods and also shows a good generalization performance.
翻訳日:2023-01-02 14:07:20 公開日:2020-02-09