このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220130となっている論文です。

PDF登録状況(公開日: 20220130)

TitleAuthorsAbstract論文公表日・翻訳日
# 思考マイニングに関する体系的文献レビュー: 思考を生み出すための機械駆動分析の利用

A Systematic Literature Review about Idea Mining: The Use of Machine-driven Analytics to Generate Ideas ( http://arxiv.org/abs/2202.12826v1 )

ライセンス: Link先を確認
Workneh Y. Ayele and Gustaf Juell-Skielse(参考訳) アイデア生成はイノベーションの核となる活動です。 特許、出版物、ソーシャルメディア、ウェブサイトなどのイノベーションの源であるデジタルデータソースは、前例のない規模でますます増えている。 手動のアイデア生成は時間を要するものであり、関係する個人の主観性に影響される。 したがって、機械学習データ分析技術を用いてデータを分析してアイデアを生成し、ユーザに提供するアイデア生成を支援することは有用である。 本研究の目的は、アイデア生成とデータソースのための最先端機械駆動分析の研究であり、この研究の結果は一般的に、技術やデータソースを選択するためのガイドラインとしてサーバされる。 IEEE, Scopus, Web of Science, Google Scholarから関連する学術文献を特定するために,系統的な文献レビューを行う。 合計71の論文を選抜し,主題的に分析した。 本研究では, テキストマイニング, 情報検索 (IR), 人工知能 (AI), ディープラーニング, 機械学習, 統計技術, 自然言語処理 (NLP), NLPに基づく形態解析, ネットワーク分析, バイオロメトリを応用して, アイデア生成を支援した。 結果は、機械駆動のアイデア分析によるアイデア生成のテクニックと手順のリストを含む。 さらに、アイデア生成に使用される特徴とヒューリスティックスを要約する。 将来的には、アイデアを生み出すためのツールも検討されるだろう。

Idea generation is the core activity of innovation. Digital data sources, which are sources of innovation, such as patents, publications, social media, websites, etc., are increasingly growing at unprecedented volume. Manual idea generation is time-consuming and is affected by the subjectivity of the individuals involved. Therefore, the use machine-driven data analytics techniques to analyze data to generate ideas and support idea generation by serving users is useful. The objective of this study is to study state-of the-art machine-driven analytics for idea generation and data sources, hence the result of this study will generally server as a guideline for choosing techniques and data sources. A systematic literature review is conducted to identify relevant scholarly literature from IEEE, Scopus, Web of Science and Google Scholar. We selected a total of 71 articles and analyzed them thematically. The results of this study indicate that idea generation through machine-driven analytics applies text mining, information retrieval (IR), artificial intelligence (AI), deep learning, machine learning, statistical techniques, natural language processing (NLP), NLP-based morphological analysis, network analysis, and bibliometric to support idea generation. The results include a list of techniques and procedures in idea generation through machine-driven idea analytics. Additionally, characterization and heuristics used in idea generation are summarized. For the future, tools designed to generate ideas could be explored.
翻訳日:2022-03-06 13:07:53 公開日:2022-01-30
# (参考訳) AGI(Artificial General Intelligence)の基礎としての存在と認識 [全文訳有]

Existence and perception as the basis of AGI (Artificial General Intelligence) ( http://arxiv.org/abs/2202.03155v1 )

ライセンス: CC BY 4.0
Victor V. Senkevich(参考訳) AGI(Artificial General Intelligence, 人工知能)は、AIとは違って意味を持つ。 そして、それがAIとの違いなのです。 成功したAI実装(チェス、無人運転、顔認識など)は、処理対象の意味をいかなる方法でも操作せず、その意味を認識できない。 必要ありません。 しかし、人間の思考をエミュレートするAGIにとって、この能力は不可欠だ。 このような定義はすべて厳密で形式化されたものではなく、プログラム化できない。 検索手順の意味は、その存在と認識の可能な形態の形式化された記述を用いるべきである。 AGIの実践的な実装には、関連する認知概念である「意味」と「知識」の処理に使用される文脈において、このような「可読な」記述を開発する必要がある。 このような概念の定義を形式化する試みは、この記事で述べられている。

As is known, AGI (Artificial General Intelligence), unlike AI, should operate with meanings. And that's what distinguishes it from AI. Any successful AI implementations (playing chess, unmanned driving, face recognition etc.) do not operate with the meanings of the processed objects in any way and do not recognize the meaning. And they don't need to. But for AGI, which emulates human thinking, this ability is crucial. Numerous attempts to define the concept of "meaning" have one very significant drawback - all such definitions are not strict and formalized, so they cannot be programmed. The meaning search procedure should use a formalized description of its existence and possible forms of its perception. For the practical implementation of AGI, it is necessary to develop such "ready-to-code" descriptions in the context of their use for processing the related cognitive concepts of "meaning" and "knowledge". An attempt to formalize the definition of such concepts is made in this article.
翻訳日:2022-02-14 00:48:00 公開日:2022-01-30
# (参考訳) 5Gによる自動運転車のモバイルエッジコンピューティングセキュリティの実現 [全文訳有]

5G enabled Mobile Edge Computing security for Autonomous Vehicles ( http://arxiv.org/abs/2202.00005v1 )

ライセンス: CC BY 4.0
Daryll Ralph D'Costa, Dr. Robert Abbas(参考訳) 世界は5g通信インフラの導入によって新しい時代へと移行しつつある。 この技術を中心に多くの新しい開発が展開されている。 その一つが5G Vehicle to Everything通信である。 この技術は、商品の無人配達、緊急時の即時対応、交通効率の向上といった用途に利用できる。 インテリジェントトランスポートシステム(ITS)の概念は、完全に自律的なシステムを中心に構築されている。 本稿では,5Gネットワーク上でのDDoS攻撃について検討し,セキュリティ攻撃,特にDDoS攻撃について分析する。 ターゲットは、さまざまな種類のDDoS攻撃を分類し、5Gレイテンシーの品質を予測する機械学習モデルを実装することである。 実装の最初のステップは、データセットに5Gパラメータを合成することであった。 その後、データはラベルエンコードされ、マイノリティクラスは他のクラスとマッチするようにオーバーサンプリングされた。 最後に、トレーニングとテストとしてデータを分割し、機械学習モデルを適用した。 この論文はDDoS攻撃を予測するモデルとなったが、データセットは5G関連の情報をかなり欠いていた。 さらに、5g分類モデルはさらなる修正を必要とした。 この研究は主にシミュレーション環境における定量的な研究手法に基づいている。 したがって、この研究の最大の制限は、データ収集のためのリソースの欠如と、オンラインデータセットへの依存である。 理想的には、v2x(autonomous to everything)プロジェクトは、モバイルエッジクラウドに接続された自動運転5g対応車両の恩恵を受けるだろう。 しかし、このプロジェクトは単一のPC上でのみ実行され、結果はさらに制限された。 モデルは過小評価されているものの,将来の知的輸送システム開発研究の枠組みとして利用することができる。

The world is moving into a new era with the deployment of 5G communication infrastructure. Many new developments are deployed centred around this technology. One such advancement is 5G Vehicle to Everything communication. This technology can be used for applications such as driverless delivery of goods, immediate response to emergencies and improving traffic efficiency. The concept of Intelligent Transport Systems (ITS) is built around this system which is completely autonomous. This paper studies the Distributed Denial of Service (DDoS) attack carried out over a 5G network and analyses security attacks, particularly the DDoS attack. The aim is to implement a machine learning model capable of classifying different types of DDoS attacks and predicting the quality of 5G latency. The initial steps of implementation involved the synthetic addition of 5G parameters into the dataset. Subsequently, the data was label encoded, and minority classes were oversampled to match the other classes. Finally, the data was split as training and testing, and machine learning models were applied. Although the paper resulted in a model that predicted DDoS attacks, the dataset acquired significantly lacked 5G related information. Furthermore, the 5G classification model needed more modification. The research was based on largely quantitative research methods in a simulated environment. Hence, the biggest limitation of this research has been the lack of resources for data collection and sole reliance on online data sets. Ideally, a Vehicle to Everything (V2X) project would greatly benefit from an autonomous 5G enabled vehicle connected to a mobile edge cloud. However, this project was conducted solely online on a single PC which further limits the outcomes. Although the model underperformed, this paper can be used as a framework for future research in Intelligent Transport System development.
翻訳日:2022-02-03 08:09:30 公開日:2022-01-30
# (参考訳) AlTiSiN被覆炭化物工具を用いたAISID6鋼のハードターンにおける機械学習によるモデリングと最適化

Machine learning based modelling and optimization in hard turning of AISI D6 steel with newly developed AlTiSiN coated carbide tool ( http://arxiv.org/abs/2202.00596v1 )

ライセンス: CC BY 4.0
A Das, S R Das, J P Panda, A Dey, K K Gajrani, N Somani, N Gupta(参考訳) 近年, 機械・製造産業は, 持続可能な製造への転換に伴う課題に直面している。 本稿では, スケーラブルなパルスパワープラズマでコーティングしたアルチシン被覆炭化物と呼ばれるコーティングインサートを用いて, 乾燥切削条件下で加工を行い, 異なる加工パラメータと出力応答のためのデータセットを作成した。 加工パラメータは、速度、供給量、切断深さ、出力応答は、表面粗さ、切削力、クレーター摩耗長さ、クレーター摩耗幅、側面摩耗である。 様々な入力加工パラメータをテスト、評価、最適化するための機械学習(ml)ベースのサロゲートモデルの開発には、加工操作から得られたデータを用いる。 AISI D6鋼の硬加工における異なる出力応答をモデル化するために, 多項式回帰(PR), ランダムフォレスト(RF)回帰, 勾配増進(GB)木, 適応増進(AB)ベース回帰などのML手法を用いた。 異なる出力応答に対するサロゲートモデルを用いて、ハードターン操作の加工パラメータの胚中心アルゴリズムに基づく最適化のための複雑な目的関数を作成する。

In recent times Mechanical and Production industries are facing increasing challenges related to the shift toward sustainable manufacturing. In this article, machining was performed in dry cutting condition with a newly developed coated insert called AlTiSiN coated carbides coated through scalable pulsed power plasma technique in dry cutting condition and a dataset was generated for different machining parameters and output responses. The machining parameters are speed, feed, depth of cut and the output responses are surface roughness, cutting force, crater wear length, crater wear width, and flank wear. The data collected from the machining operation is used for the development of machine learning (ML) based surrogate models to test, evaluate and optimize various input machining parameters. Different ML approaches such as polynomial regression (PR), random forest (RF) regression, gradient boosted (GB) trees, and adaptive boosting (AB) based regression are used to model different output responses in the hard machining of AISI D6 steel. The surrogate models for different output responses are used to prepare a complex objective function for the germinal center algorithm-based optimization of the machining parameters of the hard turning operation.
翻訳日:2022-02-03 08:01:22 公開日:2022-01-30
# 異方性拡散フィルタにおける最小二乗支援ベクトル回帰

A least squares support vector regression for anisotropic diffusion filtering ( http://arxiv.org/abs/2202.00595v1 )

ライセンス: Link先を確認
Arsham Gholamzadeh Khoee, Kimia Mohammadi Mohammadi, Mostafa Jani, Kourosh Parand(参考訳) 低域通過フィルタとしての信号平滑化のための異方性拡散フィルタは、エッジ保存の利点、すなわち、信号の他の部分よりも重要なデータを含むエッジに影響を与えない。 本稿では,非線形拡散問題の離散化を伴うレジェンドル直交カーネルを用いて,最小二乗のベクトル回帰に基づく数値アルゴリズムをクランク・ニコソン法により提案する。 この方法は,信号平滑化処理を効率的な数値アルゴリズムで解ける最適化問題に変換する。 最終分析では,信号平滑化のための機械学習手法の有効性を示す数値実験を報告した。

Anisotropic diffusion filtering for signal smoothing as a low-pass filter has the advantage of the edge-preserving, i.e., it does not affect the edges that contain more critical data than the other parts of the signal. In this paper, we present a numerical algorithm based on least squares support vector regression by using Legendre orthogonal kernel with the discretization of the nonlinear diffusion problem in time by the Crank-Nicolson method. This method transforms the signal smoothing process into solving an optimization problem that can be solved by efficient numerical algorithms. In the final analysis, we have reported some numerical experiments to show the effectiveness of the proposed machine learning based approach for signal smoothing.
翻訳日:2022-02-02 16:01:11 公開日:2022-01-30
# コンパレータに基づく近親系の経験的複雑性

Empirical complexity of comparator-based nearest neighbor descent ( http://arxiv.org/abs/2202.00517v1 )

ライセンス: Link先を確認
Jacob D. Baron and R. W. R. Darling(参考訳) k$-nearest近傍降下アルゴリズムのjava並列ストリーム実装は、自然統計終了基準を用いて提示される。 入力データは、タイプVの$n$オブジェクトのセット$S$と、任意の$x \in S$が$y、z \in S\setminus\{x\}$のどちらが$x$に近いかを判断できるFunction<V, Comparator<V>>で構成される。 Kullback-Leibler 分岐比較器による実験は、$K$-nearest 隣の更新ラウンドの数が$n$ vertices上のランダムな正則外度$K$ digraphの2倍の直径を超えないという予測を支持している。 全体の複雑性は、研究された例のクラスで$o(n k^2 \log_k(n))$であった。 オブジェクトが$d$-dimensional simplex から一様にサンプリングされると、$k$-nearest の隣の近似の精度は $d = 20$ となるが、理論が予測するより高次元では低下する。

A Java parallel streams implementation of the $K$-nearest neighbor descent algorithm is presented using a natural statistical termination criterion. Input data consist of a set $S$ of $n$ objects of type V, and a Function<V, Comparator<V>>, which enables any $x \in S$ to decide which of $y, z \in S\setminus\{x\}$ is more similar to $x$. Experiments with the Kullback-Leibler divergence Comparator support the prediction that the number of rounds of $K$-nearest neighbor updates need not exceed twice the diameter of the undirected version of a random regular out-degree $K$ digraph on $n$ vertices. Overall complexity was $O(n K^2 \log_K(n))$ in the class of examples studied. When objects are sampled uniformly from a $d$-dimensional simplex, accuracy of the $K$-nearest neighbor approximation is high up to $d = 20$, but declines in higher dimensions, as theory would predict.
翻訳日:2022-02-02 13:56:49 公開日:2022-01-30
# (参考訳) 分数最小化のための座標降下法 [全文訳有]

Coordinate Descent Methods for Fractional Minimization ( http://arxiv.org/abs/2201.12691v1 )

ライセンス: CC BY 4.0
Ganzhao Yuan(参考訳) 目的の数値部が微分可能凸関数と凸非滑らか関数の和であり、分母部が凹関数あるいは凸関数であるような、構成された分数最小化問題のクラスを考える。 非凸であるため、この問題は解決が難しい。 問題の構造を利用して,この問題を解決するための2つのコーディネートDescent法を提案する。 1つは元の分数関数に適用され、もう1つは関連するパラメトリック問題に基づいている。 提案手法は1次元のsubproblem \textit{globally} を反復的に解き、座標の定常点に収束することが保証される。 凸分母の場合、シーケンシャルな非凸近似を用いたcd法が既存の方法よりも強い定常点を求めることが証明される。 適切な条件下では、適切な初期化を持つcd法は最適点(座標方向静止点)に線形収束する。 凸分母の場合、結果として生じる問題は準凸であり、任意の臨界点が大域的極小であることを示す。 アルゴリズムが大域的最適解にサブリニア収束率で収束することを証明する。 提案手法をいくつかの機械学習および信号処理モデルに適用する可能性を示す。 実世界のデータを用いた実験により,提案手法は精度において既存手法よりも著しく優れていた。

We consider a class of structured fractional minimization problems, in which the numerator part of the objective is the sum of a differentiable convex function and a convex nonsmooth function, while the denominator part is a concave or convex function. This problem is difficult to solve since it is nonconvex. By exploiting the structure of the problem, we propose two Coordinate Descent (CD) methods for solving this problem. One is applied to the original fractional function, the other is based on the associated parametric problem. The proposed methods iteratively solve a one-dimensional subproblem \textit{globally}, and they are guaranteed to converge to coordinate-wise stationary points. In the case of a convex denominator, we prove that the proposed CD methods using sequential nonconvex approximation find stronger stationary points than existing methods. Under suitable conditions, CD methods with an appropriate initialization converge linearly to the optimal point (also the coordinate-wise stationary point). In the case of a concave denominator, we show that the resulting problem is quasi-convex, and any critical point is a global minimum. We prove that the algorithms converge to the global optimal solution with a sublinear convergence rate. We demonstrate the applicability of the proposed methods to some machine learning and signal processing models. Our experiments on real-world data have shown that our method significantly and consistently outperforms existing methods in terms of accuracy.
翻訳日:2022-02-02 12:14:50 公開日:2022-01-30
# (参考訳) 顔の感情認識と評価に対するディープラーニングアプローチのためのロバストなフレームワーク [全文訳有]

A Robust Framework for Deep Learning Approaches to Facial Emotion Recognition and Evaluation ( http://arxiv.org/abs/2201.12705v1 )

ライセンス: CC BY 4.0
Nyle Siddiqui, Rushit Dave, Tyler Bauer, Thomas Reither, Dylan Black, Mitchell Hanson(参考訳) 顔の感情認識はコンピュータビジョンの領域内で広く複雑な問題であり、提案されたモデルを評価するために普遍的に受け入れられたベースライン法を必要とする。 テストデータセットはこの目的を学術分野で実世界のアプリケーションに適用する一方で、そのようなモデルのテストには実際の比較が欠けている。 そこで本研究では, FER 用に開発したモデルを, 一定の標準化方式で比較・比較できるフレームワークを提案する。 AffectNetデータセットに顔の感情認識のための大きな可変データセットをトレーニングした軽量畳み込みニューラルネットワークを開発し,概念実証として提案したフレームワークを用いてWebアプリケーションを開発,デプロイした。 CNNはアプリケーションに埋め込まれており、リアルタイムで顔の感情認識を行うことができる。 AffectNetテストセットでテストすると、8つの異なる感情の感情分類のための高精度なモデルが得られる。 このフレームワークを用いることで,本モデルの有効性を,サンプルテストデータセットの精度に基づく評価だけでなく,野生実験においても適切に評価することが可能となる。 さらに、私たちのアプリケーションは、感情認識のためにキャプチャされた画像やアップロードされた画像を保存、保存する機能を備えており、より高品質で多様な顔の感情認識データセットのキュレーションを可能にします。

Facial emotion recognition is a vast and complex problem space within the domain of computer vision and thus requires a universally accepted baseline method with which to evaluate proposed models. While test datasets have served this purpose in the academic sphere real world application and testing of such models lacks any real comparison. Therefore we propose a framework in which models developed for FER can be compared and contrasted against one another in a constant standardized fashion. A lightweight convolutional neural network is trained on the AffectNet dataset a large variable dataset for facial emotion recognition and a web application is developed and deployed with our proposed framework as a proof of concept. The CNN is embedded into our application and is capable of instant real time facial emotion recognition. When tested on the AffectNet test set this model achieves high accuracy for emotion classification of eight different emotions. Using our framework the validity of this model and others can be properly tested by evaluating a model efficacy not only based on its accuracy on a sample test dataset, but also on in the wild experiments. Additionally, our application is built with the ability to save and store any image captured or uploaded to it for emotion recognition, allowing for the curation of more quality and diverse facial emotion recognition datasets.
翻訳日:2022-02-02 11:03:39 公開日:2022-01-30
# (参考訳) テンソル等価minimax-concaveペナルティに基づくテンソル回復 [全文訳有]

Tensor Recovery Based on Tensor Equivalent Minimax-Concave Penalty ( http://arxiv.org/abs/2201.12709v1 )

ライセンス: CC BY 4.0
Hongbing Zhang, Xinyi Liu, Hongtao Fan, Yajing Li, Yinlin Ye(参考訳) テンソルリカバリはコンピュータビジョンと機械学習において重要な問題である。 通常、テンソルランクの凸緩和と、それぞれ核ノルムとl_{1}$ノルムである$l_{0}$ノルムを用いて問題を解決する。 凸近似がバイアス付き推定子を生成することはよく知られている。 この問題を解決するために、対応する非凸正則化器が提案されている。 行列同値Minimax-Concave Penalty(EMCP)に着想を得て、テンソル同値Minimax-Concave Penalty(TEMCP)の定理を提案し、証明する。 非凸正則化器としてのテンソル等価MPP(TEMCP)と、ローランク部分を表すことができる等価重み付きテンソル$\gamma$ norm(EWTGN)を得る。 両者とも体重適応を実現することができる。 同時に,2つの古典的テンソル回復問題,ローランクテンソル完備化(LRTC)とテンソルロバスト主成分分析(TRPCA)に対応する2つの適応モデルを提案し,最適化アルゴリズムは交互方向乗算器(ADMM)に基づく。 この新しい反復適応アルゴリズムはより正確なテンソル回復効果を得ることができる。 テンソル完了モデルでは、マルチスペクトル画像(MSI)、磁気共鳴画像(MRI)、カラービデオ(CV)データセットが考慮され、テンソル頑健な主成分分析モデルでは、ガウス雑音と塩とペッパー雑音の下の高スペクトル画像(HSI)が考慮される。 提案アルゴリズムは最先端手法よりも優れており,実験による低減と収束が保証されている。

Tensor recovery is an important problem in computer vision and machine learning. It usually uses the convex relaxation of tensor rank and $l_{0}$ norm, i.e., the nuclear norm and $l_{1}$ norm respectively, to solve the problem. It is well known that convex approximations produce biased estimators. In order to overcome this problem, a corresponding non-convex regularizer has been proposed to solve it. Inspired by matrix equivalent Minimax-Concave Penalty (EMCP), we propose and prove theorems of tensor equivalent Minimax-Concave Penalty (TEMCP). The tensor equivalent MCP (TEMCP) as a non-convex regularizer and the equivalent weighted tensor $\gamma$ norm (EWTGN) which can represent the low-rank part are obtained. Both of them can realize weight adaptive. At the same time, we propose two corresponding adaptive models for two classical tensor recovery problems, low-rank tensor completion (LRTC) and tensor robust principal component analysis (TRPCA), and the optimization algorithm is based on alternating direction multiplier (ADMM). This novel iterative adaptive algorithm can produce more accurate tensor recovery effect. For the tensor completion model, multispectral image (MSI), magnetic resonance imaging (MRI) and color video (CV) data sets are considered, while for the tensor robust principal component analysis model, hyperspectral image (HSI) denoising under gaussian noise plus salt and pepper noise is considered. The proposed algorithm is superior to the state-of-arts method, and the algorithm is guaranteed to meet the reduction and convergence through experiments.
翻訳日:2022-02-02 10:54:05 公開日:2022-01-30
# (参考訳) フーリエ分析によるロッテリチケットの勝利:周波数誘導型ネットワークプルーニング [全文訳有]

Win the Lottery Ticket via Fourier Analysis: Frequencies Guided Network Pruning ( http://arxiv.org/abs/2201.12712v1 )

ライセンス: CC0 1.0
Yuzhang Shang, Bin Duan, Ziliang Zong, Liqiang Nie, Yan Yan(参考訳) 近年のディープラーニングの成功により、効率的なネットワーク圧縮アルゴリズムは、スマートフォンやタブレットなどのエッジデバイスの潜在的な計算能力を公開するために緊急に要求されている。 しかし、最適ネットワークプルーニングは数学的にはNPハード問題である非自明なタスクである。 従来の研究者は、破砕されたネットワークのトレーニングを宝くじを買うと説明していた。 本稿では,Magnitude-Based Pruning (MBP) 方式について検討し,深層学習モデルのフーリエ解析を用いて新しい視点から解析し,モデル指定を導く。 また, フーリエ変換を用いたmbpの一般化能力を説明するとともに, 1 段階はプルーニングネットワークのトポロジカル構造を得る, もう 1 段階はプルーニングネットワークを再訓練し, 知識蒸留による容量を周波数領域の低レベルから高レベルに回復する, 新たな二段階プルーニング手法を提案する。 CIFAR-10とCIFAR-100の大規模な実験は、他の従来のMBPアルゴリズムと比較して、新しいフーリエ解析に基づくMBPの優位性を示している。

With the remarkable success of deep learning recently, efficient network compression algorithms are urgently demanded for releasing the potential computational power of edge devices, such as smartphones or tablets. However, optimal network pruning is a non-trivial task which mathematically is an NP-hard problem. Previous researchers explain training a pruned network as buying a lottery ticket. In this paper, we investigate the Magnitude-Based Pruning (MBP) scheme and analyze it from a novel perspective through Fourier analysis on the deep learning model to guide model designation. Besides explaining the generalization ability of MBP using Fourier transform, we also propose a novel two-stage pruning approach, where one stage is to obtain the topological structure of the pruned network and the other stage is to retrain the pruned network to recover the capacity using knowledge distillation from lower to higher on the frequency domain. Extensive experiments on CIFAR-10 and CIFAR-100 demonstrate the superiority of our novel Fourier analysis based MBP compared to other traditional MBP algorithms.
翻訳日:2022-02-02 10:18:16 公開日:2022-01-30
# (参考訳) 一度だけデモする:単一視覚デモからカテゴリーレベル操作 [全文訳有]

You Only Demonstrate Once: Category-Level Manipulation from Single Visual Demonstration ( http://arxiv.org/abs/2201.12716v1 )

ライセンス: CC BY 4.0
Bowen Wen, Wenzhao Lian, Kostas Bekris, Stefan Schaal(参考訳) 有望な結果は最近、オブジェクトインスタンスをまたがるカテゴリレベルの操作で達成されている。 それにもかかわらず、しばしば高価な現実世界のデータ収集と各オブジェクトのカテゴリとタスクのセマンティックキーポイントのマニュアル仕様を必要とする。 さらに、粗いキーポイント予測や中間アクションシーケンスの無視は、ピック・アンド・プレイスを超えた複雑な操作タスクの採用を妨げる。 本研究では、オブジェクト中心のカテゴリレベルの表現とモデルフリーな6 DoFモーショントラッキングを活用する新しいカテゴリレベルの操作フレームワークを提案する。 標準オブジェクト表現はシミュレーションでのみ学習され、単一のデモビデオからカテゴリレベルのタスクの軌跡を解析するために使用される。 デモは、カノニカル表現を介して、新しいオブジェクトに調整されたターゲット軌跡に再投影される。 実行中、操作水平線は長距離、衝突のない動きと最後のインチ操作に分解される。 後者では、カテゴリーレベルの動作クローニング(CatBC)手法がモーショントラッキングを活用してクローズドループ制御を行う。 CatBCは目標軌道に従い、デモから投影され、動的に選択されたカテゴリーレベルの座標フレームに固定される。 フレームは、局所注意機構により操作地平線に沿って自動的に選択される。 このフレームワークは、複雑な手動プログラミングなしで、単一のデモだけを提供することで、さまざまな操作戦略を学べる。 広範囲にわたる実験は、複雑な長方形の政策を学ぶことを含む、精密な組立における様々な挑戦的な産業的タスクにおいてその効果を示す。 このプロセスは、オブジェクトインスタンスとシーン構成の一般化だけでなく、ダイナミクスによる不確実性に対する堅牢性を示す。

Promising results have been achieved recently in category-level manipulation that generalizes across object instances. Nevertheless, it often requires expensive real-world data collection and manual specification of semantic keypoints for each object category and task. Additionally, coarse keypoint predictions and ignoring intermediate action sequences hinder adoption in complex manipulation tasks beyond pick-and-place. This work proposes a novel, category-level manipulation framework that leverages an object-centric, category-level representation and model-free 6 DoF motion tracking. The canonical object representation is learned solely in simulation and then used to parse a category-level, task trajectory from a single demonstration video. The demonstration is reprojected to a target trajectory tailored to a novel object via the canonical representation. During execution, the manipulation horizon is decomposed into long-range, collision-free motion and last-inch manipulation. For the latter part, a category-level behavior cloning (CatBC) method leverages motion tracking to perform closed-loop control. CatBC follows the target trajectory, projected from the demonstration and anchored to a dynamically selected category-level coordinate frame. The frame is automatically selected along the manipulation horizon by a local attention mechanism. This framework allows to teach different manipulation strategies by solely providing a single demonstration, without complicated manual programming. Extensive experiments demonstrate its efficacy in a range of challenging industrial tasks in high-precision assembly, which involve learning complex, long-horizon policies. The process exhibits robustness against uncertainty due to dynamics as well as generalization across object instances and scene configurations.
翻訳日:2022-02-02 10:09:21 公開日:2022-01-30
# (参考訳) ニューラルネットワークランカ [全文訳有]

Neural Architecture Ranker ( http://arxiv.org/abs/2201.12725v1 )

ライセンス: CC BY 4.0
Bicheng Guo, Shibo He, Tao Chen, Jiming Chen, Peng Ye(参考訳) アーキテクチャランキング(architecture ranking)は、ニューラルネットワーク検索(nas)のための効率的かつ効果的なパフォーマンス予測器の設計を提唱されている。 従来のコントラスト法では,局所的なペアワイズ比較による一般化問題に悩まされるアーキテクチャのペアを比較し,相対的な性能を予測することでランキング問題を解く。 探索空間における品質階層化現象に着想を得て,探索空間全体の品質分布を利用して,新しいグローバルな視点から予測器であるニューラルアーキテクチャランサー(NAR)を提案する。 NARは、同じ品質層(レベル)の類似した特性を学び、まず、階層の表現とアーキテクチャをマッチングし、それらを分類し、評価することで、異なる個人を区別する。 異なる品質階層の特徴をキャプチャして、そのランク付け能力を検索空間全体に一般化することができる。 さらに,探索アルゴリズムを訓練することなくNASパイプラインを簡素化するサンプリング手順の導出にも,異なる品質階層の分布が有用である。 提案したNARは、2つの広く受け入れられたデータセットの最先端手法よりも優れた性能を実現する。 NAS-Bench-101では、検索空間間のパフォーマンスが0.01$\unicode{x2030}$で、安定してトップアーキテクチャに焦点を当てている。 NAS-Bench-201では、CIFAR-10、CIFAR-100、ImageNet-16-120の最適アーキテクチャを特定している。 我々は、NASの研究を促進するために、詳細なセル計算情報をカバーするこの2つのデータセットを拡張し、リリースする。

Architecture ranking has recently been advocated to design an efficient and effective performance predictor for Neural Architecture Search (NAS). The previous contrastive method solves the ranking problem by comparing pairs of architectures and predicting their relative performance, which may suffer generalization issues due to local pair-wise comparison. Inspired by the quality stratification phenomenon in the search space, we propose a predictor, namely Neural Architecture Ranker (NAR), from a new and global perspective by exploiting the quality distribution of the whole search space. The NAR learns the similar characteristics of the same quality tier (i.e., level) and distinguishes among different individuals by first matching architectures with the representation of tiers, and then classifying and scoring them. It can capture the features of different quality tiers and thus generalize its ranking ability to the entire search space. Besides, distributions of different quality tiers are also beneficial to guide the sampling procedure, which is free of training a search algorithm and thus simplifies the NAS pipeline. The proposed NAR achieves better performance than the state-of-the-art methods on two widely accepted datasets. On NAS-Bench-101, it finds the architectures with top 0.01$\unicode{x2030}$ performance among the search space and stably focuses on the top architectures. On NAS-Bench-201, it identifies the optimal architectures on CIFAR-10, CIFAR-100 and, ImageNet-16-120. We expand and release these two datasets covering detailed cell computational information to boost the study of NAS.
翻訳日:2022-02-02 09:43:57 公開日:2022-01-30
# (参考訳) TPC:ポイントクラウドモデルのための変換特異な平滑化 [全文訳有]

TPC: Transformation-Speci fic Smoothing for Point Cloud Models ( http://arxiv.org/abs/2201.12733v1 )

ライセンス: CC BY 4.0
Wenda Chu, Linyi Li, Bo Li(参考訳) ニューラルネットワークアーキテクチャを備えたポイントクラウドモデルは大きな成功を収め、自動運転車におけるライダーベースの認識システムなど、安全クリティカルなアプリケーションで広く利用されている。 しかし、このようなモデルは、回転やテーパリングなどのステルスな意味変換を誤誘導モデル予測に適用することを目的とした敵攻撃に対して脆弱である。 本稿では,意味変換攻撃に対するポイントクラウドモデルに対する厳密かつスケーラブルなロバスト性保証を提供する,トランスフォーメーション特有のスムーザリングフレームワークtpcを提案する。 まず、一般的な3D変換を3つのカテゴリに分類する: 加法(例えば、せん断)、構成可能(例えば、回転)、間接的に構成可能(例えば、テーパリング)。 次に、特定のセマンティック変換とその構成に対するユニークな認証プロトコルを指定する。 いくつかの一般的な3Dトランスフォーメーションに関する大規模な実験では、TPCは芸術の状態を著しく上回っている。 例えば、我々のフレームワークは、z軸に沿ったツイスト変換(20$^\circ$)に対する認定精度を20.3$\%$から83.8$\%$に向上させる。

Point cloud models with neural network architectures have achieved great success and have been widely used in safety-critical applications, such as Lidar-based recognition systems in autonomous vehicles. However, such models are shown vulnerable against adversarial attacks which aim to apply stealthy semantic transformations such as rotation and tapering to mislead model predictions. In this paper, we propose a transformation-speci fic smoothing framework TPC, which provides tight and scalable robustness guarantees for point cloud models against semantic transformation attacks. We first categorize common 3D transformations into three categories: additive (e.g., shearing), composable (e.g., rotation), and indirectly composable (e.g., tapering), and we present generic robustness certification strategies for all categories respectively. We then specify unique certification protocols for a range of specific semantic transformations and their compositions. Extensive experiments on several common 3D transformations show that TPC significantly outperforms the state of the art. For example, our framework boosts the certified accuracy against twisting transformation along z-axis (within 20$^\circ$) from 20.3$\%$ to 83.8$\%$.
翻訳日:2022-02-02 09:24:22 公開日:2022-01-30
# (参考訳) fedformer: 長期系列予測のための周波数強化分解トランス [全文訳有]

FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting ( http://arxiv.org/abs/2201.12740v1 )

ライセンス: CC BY 4.0
Tian Zhou, Ziqing Ma, Qingsong Wen, Xue Wang, Liang Sun, Rong Jin(参考訳) トランスフォーマーに基づく手法は、長期連続予測の最先端結果を著しく改善しているが、これらは計算に高価であるだけでなく、時系列のグローバルなビュー(例えば、全体的なトレンド)を捉えることができない。 そこで本研究では,トランスフォーマがより詳細な構造を捉えながら,時系列の大域的プロファイルを分解する方法として,季節分解法とトランスフォーマを組み合わせることを提案する。 長期予測のための変圧器の性能をさらに高めるために,フーリエ変換などのよく知られた方法では,ほとんどの時系列がスパース表現を持つ傾向にあり,周波数拡張変圧器を開発した。 周波数拡張分解変換器 ({\bf FEDformer}) と呼ばれる提案手法は, より効果的であるとともに, シーケンス長に線形な複雑性を持つ標準変換器よりも効率的である。 6つのベンチマークデータセットを用いた実証研究は、最先端の手法と比較して、FEDformerは予測誤差をそれぞれ14.8\%$と22.6\%$で減らすことができることを示している。 コードはすぐに解放される

Although Transformer-based methods have significantly improved state-of-the-art results for long-term series forecasting, they are not only computationally expensive but more importantly, are unable to capture the global view of time series (e.g. overall trend). To address these problems, we propose to combine Transformer with the seasonal-trend decomposition method, in which the decomposition method captures the global profile of time series while Transformers capture more detailed structures. To further enhance the performance of Transformer for long-term prediction, we exploit the fact that most time series tend to have a sparse representation in well-known basis such as Fourier transform, and develop a frequency enhanced Transformer. Besides being more effective, the proposed method, termed as Frequency Enhanced Decomposed Transformer ({\bf FEDformer}), is more efficient than standard Transformer with a linear complexity to the sequence length. Our empirical studies with six benchmark datasets show that compared with state-of-the-art methods, FEDformer can reduce prediction error by $14.8\%$ and $22.6\%$ for multivariate and univariate time series, respectively. the code will be released soon.
翻訳日:2022-02-02 08:56:23 公開日:2022-01-30
# (参考訳) 最大重み付き孤立カーネルマッピングに基づく近似ベイズ計算 [全文訳有]

Approximate Bayesian Computation Based on Maxima Weighted Isolation Kernel Mapping ( http://arxiv.org/abs/2201.12745v1 )

ライセンス: CC BY 4.0
Iurii S. Nagornov(参考訳) モチベーション: 分岐プロセスモデルは、ばらばらで密集した領域からなる不均等に確率的に分散したデータを生み出す。 この研究は、このタイプのモデルに対するパラメータの正確な評価の問題を解こうとする。 分岐過程モデルのがん細胞の進化への応用は、高次元化や興味のある結果の稀な出現など多くの困難を抱えている。 さらに,変異型対立遺伝子頻度の個人データに基づいて,ドライバ遺伝子変異と癌ホールマークの関係を反映したモデル係数を求めるという野心的な課題を解決したい。 結果:分離カーネルに基づく近似ベイズ計算法を設計した。 変換行データをヒルベルト空間(マッピング)に変換し、観測点に関連するシミュレーション点と最大重み付き孤立核マッピングとの類似度を測定する。 また,勾配計算や次元独立性のないパラメータ推定のためのヒューリスティックアルゴリズムも設計した。 提案手法の利点は,多次元検査データおよび癌細胞進化の例において示される。

Motivation: The branching processes model yields unevenly stochastically distributed data that consists of sparse and dense regions. The work tries to solve the problem of a precise evaluation of a parameter for this type of model. The application of the branching processes model to cancer cell evolution has many difficulties like high dimensionality and the rare appearance of a result of interest. Moreover, we would like to solve the ambitious task of obtaining the coefficients of the model reflecting the relationship of driver genes mutations and cancer hallmarks on the basis of personal data of variant allele frequencies. Results: The Approximate Bayesian computation method based on the Isolation kernel is designed. The method includes a transformation row data to a Hilbert space (mapping) and measures the similarity between simulation points and maxima weighted Isolation kernel mapping related to the observation point. Also, we designed a heuristic algorithm to find parameter estimation without gradient calculation and dimension-independen t. The advantage of the proposed machine learning method is shown for multidimensional test data as well as for an example of cancer cell evolution.
翻訳日:2022-02-02 08:28:59 公開日:2022-01-30
# (参考訳) 多目的混合変数問題に対するベイズ最適化 [全文訳有]

Bayesian Optimization For Multi-Objective Mixed-Variable Problems ( http://arxiv.org/abs/2201.12767v1 )

ライセンス: CC BY 4.0
Haris Moazam Sheikh and Philip S. Marcus(参考訳) 複合変数や高価なブラックボックス問題に対する複数の非優先目的の最適化は、工学や科学の多くの分野において重要である。 これらの問題の高価でノイズの多いブラックボックスの性質は、ベイズ最適化(BO)の理想的な候補となる。 しかし、混合変数および多重対象問題は、BOの根底にある滑らかなガウス過程代理モデルのために問題となる。 現在の多目的BOアルゴリズムは混合変数問題に対処できない。 このような問題に対する最初の混合変数多目的ベイズ最適化フレームワークであるMixMOBOを提案する。 遺伝的アルゴリズムを用いてサロゲート表面をサンプリングし、多目的で混合可能な設計空間に最適なパレートフロントを効率よく見つけることができる。 この方法は、他の著者によって混合変数や多目的問題のために開発されたものを含む、多くの異なるカーネルと取得関数を組み込むのに十分な柔軟性がある。 また,多目的問題における獲得関数のポートフォリオを用いた修正型ヘッジ戦略である hedgemo も紹介する。 新たな獲得関数 SMC を提案する。 合成問題において,MixMOBOは他の混合変数アルゴリズムに対して良好に動作することを示す。 我々は,MixMOBOを建築材料の実世界の設計に適用し,実験により得られた最適設計が,既存の構造より10^4$の正規化ひずみエネルギー密度を有することを示す。

Optimizing multiple, non-preferential objectives for mixed-variable, expensive black-box problems is important in many areas of engineering and science. The expensive, noisy black-box nature of these problems makes them ideal candidates for Bayesian optimization (BO). Mixed-variable and multi-objective problems, however, are a challenge due to the BO's underlying smooth Gaussian process surrogate model. Current multi-objective BO algorithms cannot deal with mixed-variable problems. We present MixMOBO, the first mixed variable multi-objective Bayesian optimization framework for such problems. Using a genetic algorithm to sample the surrogate surface, optimal Pareto-fronts for multi-objective, mixed-variable design spaces can be found efficiently while ensuring diverse solutions. The method is sufficiently flexible to incorporate many different kernels and acquisition functions, including those that were developed for mixed-variable or multi-objective problems by other authors. We also present HedgeMO, a modified Hedge strategy that uses a portfolio of acquisition functions in multi-objective problems. We present a new acquisition function SMC. We show that MixMOBO performs well against other mixed-variable algorithms on synthetic problems. We apply MixMOBO to the real-world design of an architected material and show that our optimal design, which was experimentally fabricated and validated, has a normalized strain energy density $10^4$ times greater than existing structures.
翻訳日:2022-02-02 07:53:32 公開日:2022-01-30
# (参考訳) 視聴覚手がかりからの自己教師付き移動車両検出 [全文訳有]

Self-Supervised Moving Vehicle Detection from Audio-Visual Cues ( http://arxiv.org/abs/2201.12771v1 )

ライセンス: CC BY 4.0
Jannik Z\"urn, Wolfram Burgard(参考訳) 移動中の車両のロバスト検出は、自律走行する屋外ロボットや自動運転車にとって重要なタスクである。 このタスクを解決するための現代的なアプローチは、nuScenesやWaymo Open Datasetといった大規模な車両検出データセットを使用したイメージベースの検出器のトレーニングに依存している。 手動アノテーションを提供することは、実際にうまくスケールしない、高価で手間のかかる作業です。 そこで本研究では,映像中の移動車両を視聴覚的手がかりで検出する自己教師付き手法を提案する。 本手法では,画像と録音音声から車両の局所化にコントラスト学習を用いる。 実世界のデータセットで実施した広範な実験で,本手法が移動車両の正確な検出を提供し,手動アノテーションを必要としないことを実証した。 さらに,本モデルは教師が音声のみの検出モデルを監督するために利用できることを示す。 この学生モデルは照明の変化に不変であり、それゆえ、独占的な視覚を支配的なモダリティとして活用するモデルに固有の領域ギャップを効果的に橋渡しする。

Robust detection of moving vehicles is a critical task for any autonomously operating outdoor robot or self-driving vehicle. Most modern approaches for solving this task rely on training image-based detectors using large-scale vehicle detection datasets such as nuScenes or the Waymo Open Dataset. Providing manual annotations is an expensive and laborious exercise that does not scale well in practice. To tackle this problem, we propose a self-supervised approach that leverages audio-visual cues to detect moving vehicles in videos. Our approach employs contrastive learning for localizing vehicles in images from corresponding pairs of images and recorded audio. In extensive experiments carried out with a real-world dataset, we demonstrate that our approach provides accurate detections of moving vehicles and does not require manual annotations. We furthermore show that our model can be used as a teacher to supervise an audio-only detection model. This student model is invariant to illumination changes and thus effectively bridges the domain gap inherent to models leveraging exclusively vision as the predominant modality.
翻訳日:2022-02-02 07:27:53 公開日:2022-01-30
# (参考訳) テキストにおける暗黙の地理的動きの認識 [全文訳有]

Recognition of Implicit Geographic Movement in Text ( http://arxiv.org/abs/2201.12799v1 )

ライセンス: CC BY 4.0
Scott Pezanowski, Prasenjit Mitra(参考訳) 人間、動物、その他の現象の地理的な動きを分析することは、研究の分野である。 この研究は、都市計画、物流、動物移動の理解など多くの恩恵を受けた。 通常、この動きはGPS(Global Positioning Systems)による正確な座標とタイムスタンプとして捉えられる。 いくつかの研究は、計算技術を使ってルートの方向、ハイキング経路、歴史的な探検ルートの記述を暗黙の運動に活用しているが、革新は大規模で多様なコーパスで加速するであろう。 我々は,地理的移動の有無を記述し,実体移動の種類を含む文のコーパスを作成した。 このコーパスを作るには、それと同等のコーパスを使わずに、高い人間のラベリングコストを発生させることが困難であることが判明した。 これらの課題を克服するために, より多くのラベルを予測するために, ハンドラベリング, 群衆投票による確認, 機械学習を用いた反復的プロセスを開発した。 単語埋め込みの進歩を従来の機械学習モデルやモデルアンサンブルと組み合わせることで、小さなゴールドスタンダードコーパストレーニングセットにもかかわらず、大きな銀標準コーパスを生成するための予測精度は許容できるレベルである。 我々のコーパスは、動きの検出に加えて、テキストや空間認識における地理の計算処理に役立ちそうだ。

Analyzing the geographic movement of humans, animals, and other phenomena is a growing field of research. This research has benefited urban planning, logistics, animal migration understanding, and much more. Typically, the movement is captured as precise geographic coordinates and time stamps with Global Positioning Systems (GPS). Although some research uses computational techniques to take advantage of implicit movement in descriptions of route directions, hiking paths, and historical exploration routes, innovation would accelerate with a large and diverse corpus. We created a corpus of sentences labeled as describing geographic movement or not and including the type of entity moving. Creating this corpus proved difficult without any comparable corpora to start with, high human labeling costs, and since movement can at times be interpreted differently. To overcome these challenges, we developed an iterative process employing hand labeling, crowd voting for confirmation, and machine learning to predict more labels. By merging advances in word embeddings with traditional machine learning models and model ensembling, prediction accuracy is at an acceptable level to produce a large silver-standard corpus despite the small gold-standard corpus training set. Our corpus will likely benefit computational processing of geography in text and spatial cognition, in addition to detection of movement.
翻訳日:2022-02-02 07:16:44 公開日:2022-01-30
# (参考訳) 類似性と一般化:騒音から腐敗へ [全文訳有]

Similarity and Generalization: From Noise to Corruption ( http://arxiv.org/abs/2201.12803v1 )

ライセンス: CC BY 4.0
Nayara Fonseca, Veronica Guidetti(参考訳) コントラスト学習は、類似したサンプルが互いに近接し、異なるものが遠く離れた埋め込み表現を見つけることによって、データから特徴を抽出することを目的としている。 我々は、最も単純な代表であるシームズニューラルネットワーク(SNN)に着目し、対照的な学習における一般化について研究する。 また,SNNにもDouble Descentが出現し,ノイズにより悪化していることを示す。 SNNは2つの異なるノイズ源、PLN(Pair Label Noise)とSLN(Single Label Noise)の影響を受けうると指摘する。 SLNの効果は非対称であるが、類似性関係を保ち、PLNは対称であるが推移性を損なう。 データセットトポロジーが一般化に重大な影響を与えることを示す。 スパースデータセットはSLNとPLNで同等のノイズ量で同じ性能を示すが、SLNは高密度データセットにおいて過度にパラメータ化された領域でPLNより優れる。 実際、この体制ではPLNの類似性違反はマクロ的になり、データセットを完全なオーバーフィッティングが達成できない時点まで劣化させる。 この現象密度誘起類似性の崩壊(dibs)と呼ぶ。 また,類似性タスクのオンライン最適化とオフライン一般化の等価性についても検討した。 類似性学習におけるオンライン/オフライン対応は,ネットワークアーキテクチャやラベルノイズの影響を受けやすい。

Contrastive learning aims to extract distinctive features from data by finding an embedding representation where similar samples are close to each other, and different ones are far apart. We study generalization in contrastive learning, focusing on its simplest representative: Siamese Neural Networks (SNNs). We show that Double Descent also appears in SNNs and is exacerbated by noise. We point out that SNNs can be affected by two distinct sources of noise: Pair Label Noise (PLN) and Single Label Noise (SLN). The effect of SLN is asymmetric, but it preserves similarity relations, while PLN is symmetric but breaks transitivity. We show that the dataset topology crucially affects generalization. While sparse datasets show the same performances under SLN and PLN for an equal amount of noise, SLN outperforms PLN in the overparametrized region in dense datasets. Indeed, in this regime, PLN similarity violation becomes macroscopical, corrupting the dataset to the point where complete overfitting cannot be achieved. We call this phenomenon Density-Induced Break of Similarity (DIBS). We also probe the equivalence between online optimization and offline generalization for similarity tasks. We observe that an online/offline correspondence in similarity learning can be affected by both the network architecture and label noise.
翻訳日:2022-02-02 06:57:34 公開日:2022-01-30
# (参考訳) 機械学習とルールベースアルゴリズムを組み合わせた安全臨界意思決定・制御フレームワーク [全文訳有]

A Safety-Critical Decision Making and Control Framework Combining Machine Learning and Rule-based Algorithms ( http://arxiv.org/abs/2201.12819v1 )

ライセンス: CC BY 4.0
Andrei Aksjonov and Ville Kyrki(参考訳) 人工知能に基づく手法は透明性の欠如に苦しむ一方で、ルールベースの手法は安全クリティカルなシステムにおいて支配的である。 しかし、後者は、安全性、快適性、効率性を同時に扱うなど、複数の要件に対する堅牢性において最初のものとは競合できない。 したがって、両方の方法の恩恵を受けるためには、1つのシステムで結合する必要がある。 本稿では,ルールベースと機械学習技術の両方の利点を享受し,その欠点を補う意思決定・制御フレームワークを提案する。 提案手法は,安全と学習という,並列動作する2つのコントローラを具体化する。 ルールベースのスイッチングロジックは、両方のコントローラから送信されるアクションの1つを選択する。 安全制御器は、学習した者が安全制約を満たさない場合、安全制御器の訓練に直接参加する場合、常に優先される。 自律運転における意思決定と制御は、自律走行車が安全で保護されていない交差点を横断するマルチタスクポリシーを学ぶシステムケーススタディとして選択される。 車両運用には複数の要件(安全、効率、快適など)が設定されている。 提案手法の有効性を検証し, 環境変化に対する要求条件とロバスト性を満たすための数値シミュレーションを行った。

While artificial-intellige nce-based methods suffer from lack of transparency, rule-based methods dominate in safety-critical systems. Yet, the latter cannot compete with the first ones in robustness to multiple requirements, for instance, simultaneously addressing safety, comfort, and efficiency. Hence, to benefit from both methods they must be joined in a single system. This paper proposes a decision making and control framework, which profits from advantages of both the rule- and machine-learning-bas ed techniques while compensating for their disadvantages. The proposed method embodies two controllers operating in parallel, called Safety and Learned. A rule-based switching logic selects one of the actions transmitted from both controllers. The Safety controller is prioritized every time, when the Learned one does not meet the safety constraint, and also directly participates in the safe Learned controller training. Decision making and control in autonomous driving is chosen as the system case study, where an autonomous vehicle learns a multi-task policy to safely cross an unprotected intersection. Multiple requirements (i.e., safety, efficiency, and comfort) are set for vehicle operation. A numerical simulation is performed for the proposed framework validation, where its ability to satisfy the requirements and robustness to changing environment is successfully demonstrated.
翻訳日:2022-02-02 06:35:46 公開日:2022-01-30
# (参考訳) ネットワークスパーシティにおける勾配駆動基準の最適化 - 勾配だけで十分 [全文訳有]

Optimizing Gradient-driven Criteria in Network Sparsity: Gradient is All You Need ( http://arxiv.org/abs/2201.12826v1 )

ライセンス: CC BY 4.0
Yuxin Zhang, Mingbao Lin, Mengzhao Chen, Zihan Xu, Fei Chao, Yunhan Shen, Ke Li, Yongjian Wu, Rongrong Ji(参考訳) ネットワークスパーシティは、ネットワークの複雑さを減らす能力のために人気を集めている。 広範な研究は勾配駆動のスパーシティを掘削する。 通常、これらの方法は重量独立の前提で構築されるが、重量が相互に影響されているという事実とは反対である。 そのため、その性能は改善され続けている。 本稿では,この独立パラドックスを解いて,勾配駆動スパーシティ(optg)をさらに最適化する。 我々の動機は、マスクの値を変更せずに簡単に更新することで、スパースサブネットワークをランダムに初期化ネットワークに配置できることを示す、最近のスーパーマスクトレーニングの進歩に由来する。 我々は超マスクトレーニングが重み勾配を蓄積することであり、独立パラドックスを部分的に解決できることを証明する。 その結果、OptGは超マスクトレーニングを勾配駆動のスパーシリティに統合し、独立パラドックスを解決するために特殊マスクオプティマイザを設計した。 実験によると、OptGは既存の最先端の競合他社をはるかに上回っている。 我々のコードは \url{https://github.com/z yxxmu/OptG} で入手できる。

Network sparsity receives popularity mostly due to its capability to reduce the network complexity. Extensive studies excavate gradient-driven sparsity. Typically, these methods are constructed upon premise of weight independence, which however, is contrary to the fact that weights are mutually influenced. Thus, their performance remains to be improved. In this paper, we propose to further optimize gradient-driven sparsity (OptG) by solving this independence paradox. Our motive comes from the recent advances on supermask training which shows that sparse subnetworks can be located in a randomly initialized network by simply updating mask values without modifying any weight. We prove that supermask training is to accumulate the weight gradients and can partly solve the independence paradox. Consequently, OptG integrates supermask training into gradient-driven sparsity, and a specialized mask optimizer is designed to solve the independence paradox. Experiments show that OptG can well surpass many existing state-of-the-art competitors. Our code is available at \url{https://github.com/z yxxmu/OptG}.
翻訳日:2022-02-02 06:17:48 公開日:2022-01-30
# (参考訳) グラフ畳み込みネットワークの過平滑化効果 [全文訳有]

Over-smoothing Effect of Graph Convolutional Networks ( http://arxiv.org/abs/2201.12830v1 )

ライセンス: CC BY-SA 4.0
Fang Sun(参考訳) オーバースムーシングはグラフ畳み込みネットワークの深さを制限する深刻な問題である。 本稿では,グラフ畳み込みネットワークの背後にあるメカニズムとオーバースムーシング効果の包括的解析を行う。 この記事では、オーバースムーシングの背後にある重要な要因についての洞察を提供する、オーバースムーシングの発生の上限を提案する。 本稿では,過度なスムーシングを緩和するアルゴリズムの実現可能性について述べる。

Over-smoothing is a severe problem which limits the depth of Graph Convolutional Networks. This article gives a comprehensive analysis of the mechanism behind Graph Convolutional Networks and the over-smoothing effect. The article proposes an upper bound for the occurrence of over-smoothing, which offers insight into the key factors behind over-smoothing. The results presented in this article successfully explain the feasibility of several algorithms that alleviate over-smoothing.
翻訳日:2022-02-02 05:57:22 公開日:2022-01-30
# (参考訳) 部分微分による深い非交差性四面体 [全文訳有]

Deep Non-Crossing Quantiles through the Partial Derivative ( http://arxiv.org/abs/2201.12848v1 )

ライセンス: CC BY-SA 4.0
Axel Brando, Joan Gimeno, Jose A. Rodr\'iguez-Serrano, Jordi Vitri\`a(参考訳) Quantile Regression (QR) は単一の条件量子を近似する方法を提供する。 条件分布をより情報的に記述するために、QRは深層学習技術とマージして複数の量子を同時に推定することができる。 しかし、QRロス関数の最小化は、そのような予測の妥当性に影響を与える非交差量子化を保証せず、特定のシナリオにおいて重要な問題を引き起こす。 本稿では,任意の数の量子化を予測できる汎用的なディープラーニングアルゴリズムを提案する。これは,機械の精度に制約された量子化の単調性を保証し,代替モデルに対するモデリング性能を維持する。 提案手法は,複数の実世界のデータセットを用いて評価し,大規模データセットにスケールすることを示す。

Quantile Regression (QR) provides a way to approximate a single conditional quantile. To have a more informative description of the conditional distribution, QR can be merged with deep learning techniques to simultaneously estimate multiple quantiles. However, the minimisation of the QR-loss function does not guarantee non-crossing quantiles, which affects the validity of such predictions and introduces a critical issue in certain scenarios. In this article, we propose a generic deep learning algorithm for predicting an arbitrary number of quantiles that ensures the quantile monotonicity constraint up to the machine precision and maintains its modelling performance with respect to alternative models. The presented method is evaluated over several real-world datasets obtaining state-of-the-art results as well as showing that it scales to large-size data sets.
翻訳日:2022-02-02 05:50:25 公開日:2022-01-30
# (参考訳) 高速モンテカルロによるアテンション機構の近似 [全文訳有]

Fast Monte-Carlo Approximation of the Attention Mechanism ( http://arxiv.org/abs/2201.12854v1 )

ライセンス: CC BY 4.0
Hyunjun Kim, JeongGil Ko(参考訳) トランスフォーマーアーキテクチャにおける自己注意機構の計算コストを削減するためのランダム化近似法であるMCA(Monte-Carlo Attention)を導入する。 MCAは、入力シーケンスにおける各トークンの重要性が注意点によって異なるという事実を利用しており、低い注意でトークンを符号化する際にある程度のエラーを許容できる。 近似行列乗算を用いて、MCAは入力トークンを符号化するために異なる誤差境界を適用し、低い注意スコアを持つものは緩和精度で計算されるが、有意要素の誤差は最小限である。 MCAは他の注意最適化方式と並行して動作し、モデル修正を必要としない。 理論誤差境界について検討し,様々なトランスフォーマーモデルの注意複雑性(FLOPS)をモデルの精度を損なうことなくGLUEベンチマークで最大11$\times$まで低減することを示した。

We introduce Monte-Carlo Attention (MCA), a randomized approximation method for reducing the computational cost of self-attention mechanisms in Transformer architectures. MCA exploits the fact that the importance of each token in an input sequence varies with respect to their attention scores; thus, some degree of error can be tolerable when encoding tokens with low attention. Using approximate matrix multiplication, MCA applies different error bounds to encode input tokens such that those with low attention scores are computed with relaxed precision, whereas errors of salient elements are minimized. MCA can operate in parallel with other attention optimization schemes and does not require model modification. We study the theoretical error bounds and demonstrate that MCA reduces attention complexity (in FLOPS) for various Transformer models by up to 11$\times$ in GLUE benchmarks without compromising model accuracy.
翻訳日:2022-02-02 05:17:54 公開日:2022-01-30
# (参考訳) 強化されたビジネスプロセス管理システム:研究マニフェスト [全文訳有]

Augmented Business Process Management Systems: A Research Manifesto ( http://arxiv.org/abs/2201.12855v1 )

ライセンス: CC BY 4.0
Marlon Dumas, Fabiana Fournier, Lior Limonad, Andrea Marrella, Marco Montali, Jana-Rebecca Rehse, Rafael Accorsi, Diego Calvanese, Giuseppe De Giacomo, Dirk Fahland, Avigdor Gal, Marcello La Rosa, Hagen V\"olzer, and Ingo Weber(参考訳) ABPMS(Augmented Business Process Management Systems)は、信頼できるAI技術に基づく、プロセス対応情報システムの新興クラスである。 ABPMSは、これらのプロセスをより適応し、積極的に、説明し、文脈に敏感にすることを目的として、ビジネスプロセスの実行を強化します。 このマニフェストは、abpmssのビジョンを示し、このビジョンを実現するために必要な研究課題について論じている。 この目的のために、我々はABPMSの概念を定義し、ABPMS内のプロセスのライフサイクルを概説し、ABPMSのコア特性について議論し、これらの特徴を持つシステムを実現するための一連の課題を導出する。

Augmented Business Process Management Systems (ABPMSs) are an emerging class of process-aware information systems that draws upon trustworthy AI technology. An ABPMS enhances the execution of business processes with the aim of making these processes more adaptable, proactive, explainable, and context-sensitive. This manifesto presents a vision for ABPMSs and discusses research challenges that need to be surmounted to realize this vision. To this end, we define the concept of ABPMS, we outline the lifecycle of processes within an ABPMS, we discuss core characteristics of an ABPMS, and we derive a set of challenges to realize systems with these characteristics.
翻訳日:2022-02-02 05:02:13 公開日:2022-01-30
# (参考訳) Neural-PIM: 周辺機器のニューラル近似を用いた効率的な処理インメモリ [全文訳有]

Neural-PIM: Efficient Processing-In-Memory with Neural Approximation of Peripherals ( http://arxiv.org/abs/2201.12861v1 )

ライセンス: CC BY 4.0
Weidong Cao, Yilong Zhao, Adith Boloor, Yinhe Han, Xuan Zhang, Li Jiang(参考訳) プロセッシング・イン・メモリ(PIM)アーキテクチャは、多くのディープラーニングタスクを加速する大きな可能性を示している。 特に、抵抗性ランダムアクセスメモリ(RRAM)デバイスは、効率的なベクトル行列乗算(VMM)を実現する能力のために、PIMアクセラレータを構築するための有望なハードウェア基板を提供する。 しかし、既存のPIMアクセラレーターは、頻繁でエネルギー集約的なアナログ-デジタル変換(A/D)に悩まされており、性能を著しく制限している。 本稿では,アナログ集積と神経近似周辺回路を用いたa/d変換を最小化し,ディープラーニングタスクを効率的に高速化する新しいpimアーキテクチャを提案する。 我々はまず,既存のPIMアクセラレーターが使用するデータフローを特徴付け,最後の量子化の前に,シフトを拡張し,(S+A)演算をアナログ領域に付加することにより,VMMsに必要なA/D変換を大幅に削減する新たなデータフローを提案する。 次に、ニューラルネットワークを用いてアナログ集積回路(S+A)と量子化回路(ADC)をRRAMクロスバーアレイで高効率に設計する。 最後に、提案したアナログデータフローに基づいてRRAMベースのPIMアクセラレータ(つまり、 \textbf{Neural-PIM})を構築し、システムレベルの性能を評価する。 異なるベンチマークによる評価では、ニューラルピムはエネルギー効率を5.36x (1.73x)向上し、精度を損なうことなくスループットを3.43x (1.59x)向上できることが示されている。

Processing-in-memory (PIM) architectures have demonstrated great potential in accelerating numerous deep learning tasks. Particularly, resistive random-access memory (RRAM) devices provide a promising hardware substrate to build PIM accelerators due to their abilities to realize efficient in-situ vector-matrix multiplications (VMMs). However, existing PIM accelerators suffer from frequent and energy-intensive analog-to-digital (A/D) conversions, severely limiting their performance. This paper presents a new PIM architecture to efficiently accelerate deep learning tasks by minimizing the required A/D conversions with analog accumulation and neural approximated peripheral circuits. We first characterize the different dataflows employed by existing PIM accelerators, based on which a new dataflow is proposed to remarkably reduce the required A/D conversions for VMMs by extending shift and add (S+A) operations into the analog domain before the final quantizations. We then leverage a neural approximation method to design both analog accumulation circuits (S+A) and quantization circuits (ADCs) with RRAM crossbar arrays in a highly-efficient manner. Finally, we apply them to build an RRAM-based PIM accelerator (i.e., \textbf{Neural-PIM}) upon the proposed analog dataflow and evaluate its system-level performance. Evaluations on different benchmarks demonstrate that Neural-PIM can improve energy efficiency by 5.36x (1.73x) and speed up throughput by 3.43x (1.59x) without losing accuracy, compared to the state-of-the-art RRAM-based PIM accelerators, i.e., ISAAC (CASCADE).
翻訳日:2022-02-02 04:37:19 公開日:2022-01-30
# (参考訳) 医学的ビデオ分類と質問応答のためのデータセット [全文訳有]

A Dataset for Medical Instructional Video Classification and Question Answering ( http://arxiv.org/abs/2201.12888v1 )

ライセンス: CC BY-SA 4.0
Deepak Gupta, Kush Attal, and Dina Demner-Fushman(参考訳) 本稿では,医療ビデオの理解と自然言語質問に対する視覚的回答を提供するシステム設計に向けた新たな課題とデータセットを提案する。 医療ビデオは、多くの救急医療や救急医療、医療教育の質問に対して、最善の答えを提供すると信じている。 そこで我々は,MedVidCLとMedVidQAデータセットを作成し,医用ビデオ分類(MVC)と医用ビジュアルアンサーローカライゼーション(MVAL)の2つのタスクを紹介した。 提案されたタスクとデータセットは、公共および医療従事者に利益をもたらす洗練された下流アプリケーションの開発を支援する可能性がある。 私たちのデータセットは、MVALタスクの6,117のアノテーション付きビデオと3,010のアノテーション付き質問と、MVALタスクの899のビデオのタイムスタンプで構成されています。 これらのデータセットは医療情報学の専門家によって検証され、修正されている。 また,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,今後の研究の基盤となるマルチモーダル学習手法を提案する。

This paper introduces a new challenge and datasets to foster research toward designing systems that can understand medical videos and provide visual answers to natural language questions. We believe medical videos may provide the best possible answers to many first aids, medical emergency, and medical education questions. Toward this, we created the MedVidCL and MedVidQA datasets and introduce the tasks of Medical Video Classification (MVC) and Medical Visual Answer Localization (MVAL), two tasks that focus on cross-modal (medical language and medical video) understanding. The proposed tasks and datasets have the potential to support the development of sophisticated downstream applications that can benefit the public and medical practitioners. Our datasets consist of 6,117 annotated videos for the MVC task and 3,010 annotated questions and answers timestamps from 899 videos for the MVAL task. These datasets have been verified and corrected by medical informatics experts. We have also benchmarked each task with the created MedVidCL and MedVidQA datasets and proposed the multimodal learning methods that set competitive baselines for future research.
翻訳日:2022-02-02 03:45:07 公開日:2022-01-30
# (参考訳) 進化型自動運転ネットワークを実現するAIに基づく大規模3次元パスロス予測モデル [全文訳有]

Interpretable AI-based Large-scale 3D Pathloss Prediction Model for enabling Emerging Self-Driving Networks ( http://arxiv.org/abs/2201.12899v1 )

ライセンス: CC BY 4.0
Usama Masood, Hasan Farooq, Ali Imran, Adnan Abu-Dayya(参考訳) 現代の無線通信システムでは、パスロスを推定するための電波伝搬モデリングがシステム設計と最適化の基本的な課題であった。 最先端の実証的伝播モデルは、特定の環境における測定に基づいており、様々な伝播環境の慣用性を取り込む能力に制限がある。 この問題に対処するため、レイトレーシングベースのソリューションは商用計画ツールで使用されているが、非常に時間と費用がかかる傾向にある。 本稿では,新しいキー予測器を応用した機械学習(ML)モデルを提案する。 予測, 一般化, 計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより, 光グラディエントブースティングマシン(LightGBM)アルゴリズムは, 実験モデルに比べて65%, レイトレーシングに比べて13倍の精度で予測精度が向上し, 光グラディエントブースティングマシン(LightGBM)アルゴリズムが他のアルゴリズムより総合的に優れていることを示す。 多くのMLベースのモデルの採用を妨げている解釈可能性の問題に対処するため、SHAP法を用いて広範囲な二次解析を行い、ネットワーク構成のインテリジェントなチューニング、実ネットワークでのトレーニングデータの強化、より軽量なMLベースの伝搬モデルの構築、低レイテンシユースケースの実現に活用できる実用的有用な洞察を多数得る。

In modern wireless communication systems, radio propagation modeling to estimate pathloss has always been a fundamental task in system design and optimization. The state-of-the-art empirical propagation models are based on measurements in specific environments and limited in their ability to capture idiosyncrasies of various propagation environments. To cope with this problem, ray-tracing based solutions are used in commercial planning tools, but they tend to be extremely time-consuming and expensive. We propose a Machine Learning (ML)-based model that leverages novel key predictors for estimating pathloss. By quantitatively evaluating the ability of various ML algorithms in terms of predictive, generalization and computational performance, our results show that Light Gradient Boosting Machine (LightGBM) algorithm overall outperforms others, even with sparse training data, by providing a 65% increase in prediction accuracy as compared to empirical models and 13x decrease in prediction time as compared to ray-tracing. To address the interpretability challenge that thwarts the adoption of most ML-based models, we perform extensive secondary analysis using SHapley Additive exPlanations (SHAP) method, yielding many practically useful insights that can be leveraged for intelligently tuning the network configuration, selective enrichment of training data in real networks and for building lighter ML-based propagation model to enable low-latency use-cases.
翻訳日:2022-02-02 03:26:34 公開日:2022-01-30
# (参考訳) 文法的な手がかりは、主に、完全にではなく、自然言語で単語の意味が冗長である [全文訳有]

Grammatical cues are largely, but not completely, redundant with word meanings in natural language ( http://arxiv.org/abs/2201.12911v1 )

ライセンス: CC BY 4.0
Kyle Mahowald, Evgeniia Diachek, Edward Gibson, Evelina Fedorenko, Richard Futrell(参考訳) 言語の組合せの力は歴史的に構文によって有効であると論じられてきた: 単語を階層的に組み合わせて複雑な意味を伝えることを可能にする規則。 しかし、これらのルールは実際どのくらい重要か? 文法的手がかりの解釈の重要性について,幅広い言語横断調査を行った。 まず, 自然発生文から抽出した主語, 動詞, 対象物(ランダム順, 形態的マーキングを除いたもの)を英語とロシア語の話者(n=484)に提示し, どの名詞がアクションのエージェントであるかを判断した。 どちらの言語においても高い精度(英語では89%、ロシア語では87%)であり、単語の意味は誰に何をしているかを強く制約していることを示唆している。 次に、ニューラルネットワークマシンの分類器を、同じようなタスクでトレーニングした。 8つの言語ファミリーから30の言語にまたがる性能は一貫して高く、中央値の精度は87%であり、人間の実験で観測された精度に匹敵するものであった。 これらの結果は、言語がなぜそのように見えるのかという理論に差があり、効率性に基づく理論に挑戦しているように見える。 文法的な手がかりは必ずしも必要ではないが、人間の相互作用がしばしば可逆である(レイはルー/ルーがレイを助けた)、非標準的意味(例えば、男が犬を噛んだ)など、言葉だけでは意味を推測できないまれなケースで有用であることが示唆されている。 重要なのは、そのようなヒントが有用であるためには、信頼性が必要であり、必要のないときを含め、ユビキタスに使用されることを意味する。

The combinatorial power of language has historically been argued to be enabled by syntax: rules that allow words to combine hierarchically to convey complex meanings. But how important are these rules in practice? We performed a broad-coverage cross-linguistic investigation of the importance of grammatical cues for interpretation. First, English and Russian speakers (n=484) were presented with subjects, verbs, and objects (in random order and with morphological markings removed) extracted from naturally occurring sentences, and were asked to identify which noun is the agent of the action. Accuracy was high in both languages (~89% in English, ~87% in Russian), suggesting that word meanings strongly constrain who is doing what to whom. Next, we trained a neural network machine classifier on a similar task: predicting which nominal in a subject-verb-object triad is the subject. Across 30 languages from eight language families, performance was consistently high: a median accuracy of 87%, comparable to the accuracy observed in the human experiments. These results have ramifications for any theory of why languages look the way that they do, and seemingly pose a challenge for efficiency-based theories: why have grammatical cues for argument role if they only have utility in 10-15% of sentences? We suggest that although grammatical cues are not usually necessary, they are useful in the rare cases when the intended meaning cannot be inferred from the words alone, including descriptions of human interactions, where roles are often reversible (e.g., Ray helped Lu/Lu helped Ray), and expressing non-canonical meanings (e.g., the man bit the dog). Importantly, for such cues to be useful, they have to be reliable, which means being ubiquitously used, including when they are not needed.
翻訳日:2022-02-02 02:56:41 公開日:2022-01-30
# ライダートリップにおける共有行動:機械学習推論アプローチ

Sharing Behavior in Ride-hailing Trips: A Machine Learning Inference Approach ( http://arxiv.org/abs/2201.12696v1 )

ライセンス: Link先を確認
Morteza Taiebat, Elham Amini, Ming Xu(参考訳) ライドシェアリングは急速に都市や個人の交通手段を変えつつある。 ライドシェアリングやプーリングは、渋滞の増加や環境への影響など、ライドシェアリングの負の外部性を軽減するために重要である。 しかし、ライドシェアリングにおける旅行レベルの共有行動にどのような影響を及ぼすかという実証的な証拠は存在しない。 2019年、シカゴの全てのライドシェアリング旅行から得られた新しいデータセットを用いて、共有乗車を要求する乗客の意欲が、年間を通じて27.0%から12.8%に低下し、旅行量と走行距離は統計的に変化していないことを示した。 共有の好みの低下は、共有旅行の1マイル当たりのコストの増加と、単独への短い旅行のシフトによるものである。 アンサンブル機械学習モデルを用いて,トリップインピーダンス変数(トリップコスト,距離,持続時間)が,トリップの共有が要求されているか,共有が成功したかの判定において,予測力の95%と91%に総じて寄与することが分かった。 時間的・時間的属性、社会デモグラフィ、構築された環境、交通供給変数は、これらの旅行インピーダンス変数が存在する場合、トリップレベルでの予測電力を伴わない。 これは、料金の信号が乗客の乗車を奨励するのに最も効果的であることを意味する。 今回の調査結果は、配車旅行におけるシェアリング行動に光を当て、特にパンデミックから需要が回復する中、シェアリングを増加させる戦略の策定に役立ちます。

Ride-hailing is rapidly changing urban and personal transportation. Ride sharing or pooling is important to mitigate negative externalities of ride-hailing such as increased congestion and environmental impacts. However, there lacks empirical evidence on what affect trip-level sharing behavior in ride-hailing. Using a novel dataset from all ride-hailing trips in Chicago in 2019, we show that the willingness of riders to request a shared ride has monotonically decreased from 27.0% to 12.8% throughout the year, while the trip volume and mileage have remained statistically unchanged. We find that the decline in sharing preference is due to an increased per-mile costs of shared trips and shifting shorter trips to solo. Using ensemble machine learning models, we find that the travel impedance variables (trip cost, distance, and duration) collectively contribute to 95% and 91% of the predictive power in determining whether a trip is requested to share and whether it is successfully shared, respectively. Spatial and temporal attributes, sociodemographic, built environment, and transit supply variables do not entail predictive power at the trip level in presence of these travel impedance variables. This implies that pricing signals are most effective to encourage riders to share their rides. Our findings shed light on sharing behavior in ride-hailing trips and can help devise strategies that increase shared ride-hailing, especially as the demand recovers from pandemic.
翻訳日:2022-02-01 19:59:15 公開日:2022-01-30
# 過パラメータモデルに対する局所SGDの高速収束

Faster Convergence of Local SGD for Over-Parameterized Models ( http://arxiv.org/abs/2201.12719v1 )

ライセンス: Link先を確認
Tiancheng Qin, S. Rasoul Etesami and C\'esar A. Uribe(参考訳) 現代の機械学習アーキテクチャは、しばしば非常に表現力が高い。 通常は過パラメータ化され、経験的損失を0に近づけることでデータを補間することができる。 ヘテロジニアスなデータ設定における過パラメータ化モデルに対する局所SGD(またはFedAvg)の収束を分析し、以下の収束率を確立することにより既存の文献を改善する。 強凸損失関数に対して$\o(\exp(-t))$の誤差境界を示し、ここで$t$は反復の総数である。 一般凸損失関数に対しては、軽度のデータ類似性仮定の下で$\O(1/T)$の誤差境界と$\O(K/T)$のエラー境界を定め、そうでなければ$K$は局所的なステップの数である。 また、誤差境界が$\O(K/T)$であることを証明することで、非凸損失関数に対する結果を拡張する。 我々の研究以前は、強凸損失関数の最もよく知られた収束率は$\o(\exp(-t/k))$であり、オーバーパラメータ設定下では一般凸関数や非凸損失関数には存在しなかった。 我々は,そのような収束率を,合理的に小さなステップ化スキームの下で定数因子に密接な問題インスタンスを提供することにより,この結果を完成させる。 最後に,実データと合成データの数値実験を用いて理論的結果を検証する。

Modern machine learning architectures are often highly expressive. They are usually over-parameterized and can interpolate the data by driving the empirical loss close to zero. We analyze the convergence of Local SGD (or FedAvg) for such over-parameterized models in the heterogeneous data setting and improve upon the existing literature by establishing the following convergence rates. We show an error bound of $\O(\exp(-T))$ for strongly-convex loss functions, where $T$ is the total number of iterations. For general convex loss functions, we establish an error bound of $\O(1/T)$ under a mild data similarity assumption and an error bound of $\O(K/T)$ otherwise, where $K$ is the number of local steps. We also extend our results for non-convex loss functions by proving an error bound of $\O(K/T)$. Before our work, the best-known convergence rate for strongly-convex loss functions was $\O(\exp(-T/K))$, and none existed for general convex or non-convex loss functions under the overparameterized setting. We complete our results by providing problem instances in which such convergence rates are tight to a constant factor under a reasonably small stepsize scheme. Finally, we validate our theoretical results using numerical experiments on real and synthetic data.
翻訳日:2022-02-01 18:26:22 公開日:2022-01-30
# より薄くより深いニューラルネットワークのトレーニング:jumpstart正規化

Training Thinner and Deeper Neural Networks: Jumpstart Regularization ( http://arxiv.org/abs/2201.12795v1 )

ライセンス: Link先を確認
Carles Riera and Camilo Rey and Thiago Serra and Eloi Puertas and Oriol Pujol(参考訳) 複数の層を持つ場合、ニューラルネットワークはより表現力が高い。 従来の訓練手法は, 層が十分に広い場合, 爆発や消失などの数値的な問題が発生しない場合にのみ, 従来の訓練手法が成功する。 しかし、より深い深度を達成するための幅の増大は、重い計算資源の使用を伴い、過パラメータ化モデルにつながる。 これらの問題は量子化やプルーニングなどのモデル圧縮手法によって部分的に解決され、その一部は損失関数の正規化に基づく正規化に依存してほとんどのパラメータの効果を無視できる。 そこで本研究では、ニューロンが死滅したり直線になったりするのを防ぐために正規化(jumpstart regularization)を使う方法を提案する。 従来のトレーニングと比較して、より薄く、より深く、そして最も重要なのはパラメータ効率のよいニューラルネットワークを得る。

Neural networks are more expressive when they have multiple layers. In turn, conventional training methods are only successful if the depth does not lead to numerical issues such as exploding or vanishing gradients, which occur less frequently when the layers are sufficiently wide. However, increasing width to attain greater depth entails the use of heavier computational resources and leads to overparameterized models. These subsequent issues have been partially addressed by model compression methods such as quantization and pruning, some of which relying on normalization-based regularization of the loss function to make the effect of most parameters negligible. In this work, we propose instead to use regularization for preventing neurons from dying or becoming linear, a technique which we denote as jumpstart regularization. In comparison to conventional training, we obtain neural networks that are thinner, deeper, and - most importantly - more parameter-efficient.
翻訳日:2022-02-01 18:25:57 公開日:2022-01-30
# ClassSPLOM -- 多次元データの分離を可視化する散乱体マトリックス

ClassSPLOM -- A Scatterplot Matrix to Visualize Separation of Multiclass Multidimensional Data ( http://arxiv.org/abs/2201.12822v1 )

ライセンス: Link先を確認
Michael Aupetit and Ahmed Ali(参考訳) 多次元データのマルチクラス分類において、ユーザは、目に見えないデータのラベルを予測するために、クラスのモデルを構築したい。 モデルはデータに基づいてトレーニングされ、その品質を評価するために既知のラベルを持つ未発見のデータでテストされる。 結果は混乱行列として可視化され,データラベルが正しく予測されたか,他のクラスと混同されたかを示す。 データの多次元的な性質はクラスの直接可視化を妨げるため、分類結果に対するより知覚的な洞察を与えるためにクラススプロムを設計する。 Scatterplot Matrix (SPLOM) というメタファーを使用して、各クラスのデータの線形識別分析プロジェクションと、その信頼性を評価するための受信操作曲線のセットを視覚化する。 アラビア方言識別のユースケースとして,クラスSPLOMを解説する。

In multiclass classification of multidimensional data, the user wants to build a model of the classes to predict the label of unseen data. The model is trained on the data and tested on unseen data with known labels to evaluate its quality. The results are visualized as a confusion matrix which shows how many data labels have been predicted correctly or confused with other classes. The multidimensional nature of the data prevents the direct visualization of the classes so we design ClassSPLOM to give more perceptual insights about the classification results. It uses the Scatterplot Matrix (SPLOM) metaphor to visualize a Linear Discriminant Analysis projection of the data for each pair of classes and a set of Receiving Operating Curves to evaluate their trustworthiness. We illustrate ClassSPLOM on a use case in Arabic dialects identification.
翻訳日:2022-02-01 18:25:42 公開日:2022-01-30
# リスク多様性の下で集団行動を学ぶ

Learning Collective Action under Risk Diversity ( http://arxiv.org/abs/2201.12891v1 )

ライセンス: Link先を確認
Ramona Merhej, Fernando P. Santos, Francisco S. Melo, Mohamed Chetouani, Francisco C. Santos(参考訳) 集団リスクジレンマ(英: Collective risk dilemmas, CRDs)は、集団が破壊的な結果のリスクを避けるために協調する必要がある社会的な課題を表すゲームである。 このようなジレンマを発生させるマルチエージェントシステムは、協力を達成するのに困難に直面し、しばしば全ての欠陥がある準最適、リスク支配的なソリューションに収束する。 本稿では,CRDをプレイすることを学ぶエージェント集団におけるリスク多様性の影響について検討する。 リスク多様性は、同種グループでは観察されない新しい課題を協調に与えている。 リスク多様性の増大は、全体的な協力を著しく減らし、全体的な目標達成を妨げることを示す。 エージェントの政策の非対称的な変化、すなわちリスクの高い個人からの貢献の増加は、リスクの低い個人からの貢献の減少を補うことができない。 RLの行動と合理的な個人主義的行動と社会的行動を比較すると、RLの集団はエージェント間の公平な貢献に収束する。 本研究は,リスク認知をエージェント間で整合させたり,リスクの多様性を明示する新たな学習手法を開発する必要性を強調した。

Collective risk dilemmas (CRDs) are a class of n-player games that represent societal challenges where groups need to coordinate to avoid the risk of a disastrous outcome. Multi-agent systems incurring such dilemmas face difficulties achieving cooperation and often converge to sub-optimal, risk-dominant solutions where everyone defects. In this paper we investigate the consequences of risk diversity in groups of agents learning to play CRDs. We find that risk diversity places new challenges to cooperation that are not observed in homogeneous groups. We show that increasing risk diversity significantly reduces overall cooperation and hinders collective target achievement. It leads to asymmetrical changes in agents' policies -- i.e. the increase in contributions from individuals at high risk is unable to compensate for the decrease in contributions from individuals at low risk -- which overall reduces the total contributions in a population. When comparing RL behaviors to rational individualistic and social behaviors, we find that RL populations converge to fairer contributions among agents. Our results highlight the need for aligning risk perceptions among agents or develop new learning techniques that explicitly account for risk diversity.
翻訳日:2022-02-01 18:24:23 公開日:2022-01-30
# OpTopNET: アドホックロボットネットワークのための学習最適位相合成器

OpTopNET: A Learning Optimal Topology Synthesizer for Ad-hoc Robot Networks ( http://arxiv.org/abs/2201.12900v1 )

ライセンス: Link先を確認
Matin Macktoobian, Zhan Shu, Qing Zhao(参考訳) 本稿では,ロボットネットワークの最適トポロジを予測するベクトルとして,機械学習による重畳アンサンブルモデルを合成する。 この問題は技術的にはマルチタスク分類の問題である。 しかし,より効率的に解くことができるマルチクラス分類問題のクラスに分類する。 この目的のために,まず,ロボットネットワークの様々な構成に付随する地平線トポロジを生成するアルゴリズムを構成する。 このアルゴリズムは、学習モデルが学習に成功している非線形最適性基準の複雑なコレクションを組み込んでいる。 そこで我々は,それに関連する特定のロボットのトポロジ予測を出力とする重畳アンサンブルモデルを提案する。 各積み重ねアンサンブルインスタンスは、3つの低レベル推定器を構成し、出力は高レベルブーピングブレンダーによって集約される。 シミュレーションの結果,本モデルを10台のロボットのネットワークに適用し,この複雑なトポロジー学習問題の様々な構成に対応する最適位相の予測において,80%以上の精度を示した。

In this paper, we synthesize a machine-learning stacked ensemble model a vector of which predicts the optimal topology of a robot network. This problem is technically a multi-task classification problem. However, we divide it into a class of multi-class classification problems that can be more efficiently solved. For this purpose, we first compose an algorithm to create ground-truth topologies associated with various configurations of a robot network. This algorithm incorporates a complex collection of nonlinear optimality criteria that our learning model successfully manages to learn. Then, we propose a stacked ensemble model whose output is the topology prediction for the particular robot associated with it. Each stacked ensemble instance constitutes three low-level estimators whose outputs will be aggregated by a high-level boosting blender. The results of the simulations, applying our model to a network of 10 robots, represents over %80 accuracy in the prediction of optimal topologies corresponding to various configurations of this complex optimal topology learning problem.
翻訳日:2022-02-01 18:24:06 公開日:2022-01-30
# jupyter notebookデータサイエンスアシスタントの訓練と評価

Training and Evaluating a Jupyter Notebook Data Science Assistant ( http://arxiv.org/abs/2201.12901v1 )

ライセンス: Link先を確認
Shubham Chandel, Colin B. Clement, Guillermo Serrato, and Neel Sundaresan(参考訳) 我々は、Jupyter Notebook GitHubリポジトリ上で新しいモデルJuPyT5をトレーニングし、新しいメトリクスであるデータサイエンス問題(DSP)を開発することで、シーケンシャル・ツー・シーケンス・トランスフォーマーを利用したデータサイエンスアシスタントの実現可能性を検討した。 DSPは、92のデータセット依存、自然言語とMarkdown問題記述、アサーションベースのユニットテストを備えた306の台帳から算出された1119の問題の集合である。 これらのノートブックは、大学生の数学とデータサイエンスの様々なPython実装の習得をテストするために設計されており、JuPyT5がテストを理解し、合格する能力を研究するために利用しています。 我々はdspの内容を分析し,その品質を検証し,100回のサンプリングで77.5\%のdsp問題をjupyt5で解くことができた。 さらに、様々なアブレーションと統計分析を行い、DSPを他の最近の自然言語とコードベンチマークと比較する。

We study the feasibility of a Data Science assistant powered by a sequence-to-sequence transformer by training a new model JuPyT5 on all publicly available Jupyter Notebook GitHub repositories and developing a new metric: Data Science Problems (DSP). DSP is a collection of 1119 problems curated from 306 pedagogical notebooks with 92 dataset dependencies, natural language and Markdown problem descriptions, and assert-based unit tests. These notebooks were designed to test university students' mastery of various Python implementations of Math and Data Science, and we now leverage them to study the ability of JuPyT5 to understand and pass the tests. We analyze the content of DSP, validate its quality, and we find that given 100 sampling attempts JuPyT5 is able to solve 77.5\% of the DSP problems. We further present various ablation and statistical analyses and compare DSP to other recent natural language to code benchmarks.
翻訳日:2022-02-01 18:23:49 公開日:2022-01-30
# オブジェクト・コセグメンテーションのための包括的塩分融合

Comprehensive Saliency Fusion for Object Co-segmentation ( http://arxiv.org/abs/2201.12828v1 )

ライセンス: Link先を確認
Harshit Singh Chhabra, Koteswar Rao Jerripothula(参考訳) オブジェクトのコセグメンテーションは、画像群における共有オブジェクトであるフォアグラウンドの明確さにより、近年大きな注目を集めている。 健全な融合は、それを実行するための有望な方法の1つです。 しかし、以前の研究では、同じ画像のサリエンシマップと異なる画像のサリエンシマップを融合して、期待されているフォアグラウンドを抽出する。 また、ほとんどの場合、手作りサリエンシ抽出や対応プロセスにも依存している。 本稿では,問題を再検討し,同じ画像と異なる画像の相似性マップを提案する。 また、深層学習の進歩を、唾液抽出と対応プロセスに活用する。 したがって、私たちはそれを包括的衛生融合と呼ぶ。 提案手法は,iCoseg,MSRC,Interne t Imagesなどの重要なベンチマークデータセットに対する先行研究と比較して,大幅に改善されたオブジェクトのコセグメンテーション結果を実現する。

Object co-segmentation has drawn significant attention in recent years, thanks to its clarity on the expected foreground, the shared object in a group of images. Saliency fusion has been one of the promising ways to carry it out. However, prior works either fuse saliency maps of the same image or saliency maps of different images to extract the expected foregrounds. Also, they rely on hand-crafted saliency extraction and correspondence processes in most cases. This paper revisits the problem and proposes fusing saliency maps of both the same image and different images. It also leverages advances in deep learning for the saliency extraction and correspondence processes. Hence, we call it comprehensive saliency fusion. Our experiments reveal that our approach achieves much-improved object co-segmentation results compared to prior works on important benchmark datasets such as iCoseg, MSRC, and Internet Images.
翻訳日:2022-02-01 18:19:55 公開日:2022-01-30
# コンピュータビジョンを用いた計画研究のための組込み環境特徴の抽出:最新技術アプローチのレビューと議論

Extracting Built Environment Features for Planning Research with Computer Vision: A Review and Discussion of State-of-the-Art Approaches ( http://arxiv.org/abs/2201.12693v1 )

ライセンス: Link先を確認
Meiqing Li, Hao Sheng(参考訳) これは2021年6月の第17回CUPUM国際会議(Computational Urban Planning and Urban Management)でのプレゼンテーションの要約である。 本研究では、コンピュータビジョン技術における最先端のアプローチの学際的合成を行い、計画における実証研究の堅牢性を向上させることができる構築された環境特徴を抽出する。 我々は,計画と計算機科学における研究のレビューから得られた知見について考察した。

This is an extended abstract for a presentation at The 17th International Conference on CUPUM - Computational Urban Planning and Urban Management in June 2021. This study presents an interdisciplinary synthesis of the state-of-the-art approaches in computer vision technologies to extract built environment features that could improve the robustness of empirical research in planning. We discussed the findings from the review of studies in both planning and computer science.
翻訳日:2022-02-01 18:02:31 公開日:2022-01-30
# RGB画像の実用的なノイズシミュレーション

Practical Noise Simulation for RGB Images ( http://arxiv.org/abs/2201.12773v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar and Ivan V. Baji\'c(参考訳) この文書は、スマートフォンカメラに見られる現実的なノイズをシミュレートするノイズ発生器について記述している。 生成器は、スマートフォンの画像デノイジングデータセット(sidd)でパラメータを推定したポアソニアン・ガウシアンノイズをシミュレートする。 ジェネレータはオンラインで利用可能で、JPEG AIの圧縮ドメイン記述探索実験で現在使用されている。

This document describes a noise generator that simulates realistic noise found in smartphone cameras. The generator simulates Poissonian-Gaussian noise whose parameters have been estimated on the Smartphone Image Denoising Dataset (SIDD). The generator is available online, and is currently being used in compressed-domain denoising exploration experiments in JPEG AI.
翻訳日:2022-02-01 18:00:43 公開日:2022-01-30
# TransBTSV2:医療画像セグメンテーションのためのより深いトランスフォーマー

TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2201.12785v1 )

ライセンス: Link先を確認
Jiangyun Li, Wenxuan Wang, Chen Chen, Tianxiang Zhang, Sen Zha, Hong Yu, Jing Wang(参考訳) 自己認識機構を用いたグローバル(長距離)情報モデリングの恩恵を受けるTransformerは,近年,自然言語処理やコンピュータビジョンにおいて成功を収めている。 局所的な特徴をキャプチャ可能な畳み込みニューラルネットワークは、グローバルな特徴空間から明示的な長距離依存性をモデル化できない。 しかし,特に3次元医用画像セグメンテーションでは,局所的特徴とグローバル特徴の両方が重要となる。 本稿では,3次元医用画像ボリュームセグメンテーションのための3次元CNNのトランスフォーマーを利用し,エンコーダ・デコーダ構造に基づくトランスBTSV2という新しいネットワークを提案する。 提案する TransBTSV2 は脳腫瘍セグメンテーション(BTS)に限らず,一般的な医用画像セグメンテーションに特化しており,医用画像の容積セグメンテーションのための強力で効率的な3Dベースラインを提供する。 ハイブリッドCNN-Transformerアーキテクチャとして、TransBTSV2は事前トレーニングなしで正確な医療画像のセグメンテーションを実現することができる。 Transformerの内部構造と導入したDeformable Bottleneck Moduleを再設計するための洞察によって、高性能なアーキテクチャを実現することができる。 4つの医療画像データセット(BraTS 2019、BraTS 2020、LiTS 2017、KiTS 2019)の大規模な実験結果から、TransBTSV2は、脳腫瘍、肝腫瘍、および腎臓腫瘍の分節に関する最先端の手法と比較して、同等またはより良い結果が得られることが示された。 コードはhttps://github.com/W enxuan-1119/TransBTS で入手できる。

Transformer, benefiting from global (long-range) information modeling using self-attention mechanism, has been successful in natural language processing and computer vision recently. Convolutional Neural Networks, capable of capturing local features, are unable to model explicit long-distance dependencies from global feature space. However, both local and global features are crucial for dense prediction tasks, especially for 3D medical image segmentation. In this paper, we exploit Transformer in 3D CNN for 3D medical image volumetric segmentation and propose a novel network named TransBTSV2 based on the encoder-decoder structure. Different from our original TransBTS, the proposed TransBTSV2 is not limited to brain tumor segmentation (BTS) but focuses on general medical image segmentation, providing a strong and efficient 3D baseline for volumetric segmentation of medical images. As a hybrid CNN-Transformer architecture, TransBTSV2 can achieve accurate segmentation of medical images without any pre-training. With the proposed insight to redesign the internal structure of Transformer and the introduced Deformable Bottleneck Module, a highly efficient architecture is achieved with superior performance. Extensive experimental results on four medical image datasets (BraTS 2019, BraTS 2020, LiTS 2017 and KiTS 2019) demonstrate that TransBTSV2 achieves comparable or better results as compared to the state-of-the-art methods for the segmentation of brain tumor, liver tumor as well as kidney tumor. Code is available at https://github.com/W enxuan-1119/TransBTS .
翻訳日:2022-02-01 18:00:37 公開日:2022-01-30
# selfrecon: デジタルアバターを単眼ビデオから自己再構築する

SelfRecon: Self Reconstruction Your Digital Avatar from Monocular Video ( http://arxiv.org/abs/2201.12792v1 )

ライセンス: Link先を確認
Boyi Jiang, Yang Hong, Hujun Bao, Juyong Zhang(参考訳) 本研究では,暗黙的かつ明示的な表現を組み合わせて,単眼で回転する人体ビデオから空間的コヒーレントなジオメトリを復元する自己修復法であるSelfReconを提案する。 明示的な方法は与えられたシーケンスに対して事前定義されたテンプレートメッシュを必要とするが、テンプレートは特定の対象に対して取得が難しい。 一方,固定トポロジーは復元精度と衣服タイプを制限している。 インプリシット法は任意の位相をサポートし、連続的な幾何学的表現により高品質である。 しかし、下流アプリケーションのための一貫した登録シーケンスを生成するために、マルチフレーム情報を統合することは困難である。 我々は両方の表現の利点を組み合わせることを提案する。 明示的なメッシュの差分マスク損失を利用してコヒーレントな全体形状を得る一方、暗黙的表面の詳細は微分可能なニューラルネットワークレンダリングによって洗練される。 一方、明示的なメッシュはトポロジの変更を調整するために定期的に更新され、一貫性の損失は両方の表現に密接にマッチするように設計されている。 既存の方法と比較して、SelfReconは、自己監督最適化を備えた任意の服を着た人間に対して、高忠実な表面を生成することができる。 広範にわたる実験結果は、実際の単眼ビデオにその効果を示す。

We propose SelfRecon, a clothed human body reconstruction method that combines implicit and explicit representations to recover space-time coherent geometries from a monocular self-rotating human video. Explicit methods require a predefined template mesh for a given sequence, while the template is hard to acquire for a specific subject. Meanwhile, the fixed topology limits the reconstruction accuracy and clothing types. Implicit methods support arbitrary topology and have high quality due to continuous geometric representation. However, it is difficult to integrate multi-frame information to produce a consistent registration sequence for downstream applications. We propose to combine the advantages of both representations. We utilize differential mask loss of the explicit mesh to obtain the coherent overall shape, while the details on the implicit surface are refined with the differentiable neural rendering. Meanwhile, the explicit mesh is updated periodically to adjust its topology changes, and a consistency loss is designed to match both representations closely. Compared with existing methods, SelfRecon can produce high-fidelity surfaces for arbitrary clothed humans with self-supervised optimization. Extensive experimental results demonstrate its effectiveness on real captured monocular videos.
翻訳日:2022-02-01 18:00:06 公開日:2022-01-30
# 心臓磁気共鳴画像における左室の自動分離

Automatic Segmentation of Left Ventricle in Cardiac Magnetic Resonance Images ( http://arxiv.org/abs/2201.12805v1 )

ライセンス: Link先を確認
Garvit Chhabra, J. H. Gagan, J. R. Harish Kumar(参考訳) 心臓mri画像における左室の分節化により、心科医は左室の容積を算出し、その後吐出率を算出できる。 吐出率とは、それぞれの収縮で心臓を離れる血液の割合を表す測定値である。 心臓科医は、心機能を決定するために、しばしば放出分数を用いる。 そこで本研究では,mr画像における左室の自動分割のためのマルチスケールテンプレートマッチング手法と楕円型アクティブディスクを提案する。 楕円アクティブディスクは、ディスクを定義する5つの自由パラメータに関して局所エネルギー関数を最適化する。 勾配降下は計算コストを最適化するグリーンの定理と共にエネルギー関数を最小化するために用いられる。 5,273個のアノテートスライスを含む320個のスキャンに対して,M&M(Multi-Centre,Multi -Vendor,Multi-Diseas e Cardiac Segmentation, M&Ms)チャレンジを通した検証を行った。 症例の89.63%で左心室の局所化が成功し,ジストールスライスでは0.873,シストールスライスでは0.770であった。 提案手法は,ディープラーニング技術と同等の性能を持つ従来の画像処理技術に基づいている。

Segmentation of the left ventricle in cardiac magnetic resonance imaging MRI scans enables cardiologists to calculate the volume of the left ventricle and subsequently its ejection fraction. The ejection fraction is a measurement that expresses the percentage of blood leaving the heart with each contraction. Cardiologists often use ejection fraction to determine one's cardiac function. We propose multiscale template matching technique for detection and an elliptical active disc for automated segmentation of the left ventricle in MR images. The elliptical active disc optimizes the local energy function with respect to its five free parameters which define the disc. Gradient descent is used to minimize the energy function along with Green's theorem to optimize the computation expenses. We report validations on 320 scans containing 5,273 annotated slices which are publicly available through the Multi-Centre, Multi-Vendor, and Multi-Disease Cardiac Segmentation (M&Ms) Challenge. We achieved successful localization of the left ventricle in 89.63% of the cases and a Dice coefficient of 0.873 on diastole slices and 0.770 on systole slices. The proposed technique is based on traditional image processing techniques with a performance on par with the deep learning techniques.
翻訳日:2022-02-01 17:59:47 公開日:2022-01-30
# リーマンブロックSPD結合多様体とその最適輸送への応用

Riemannian block SPD coupling manifold and its application to optimal transport ( http://arxiv.org/abs/2201.12933v1 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Junbin Gao(参考訳) 最適なトランスポート(OT)は様々な分野のアプリケーションで人気がある。 まず、ot問題は、コスト、辺数、結合がブロック行列として表現され、各成分ブロックがspd行列である一般対称正定値(spd)行列値ot問題の例と見なすことができる。 結合行列における行ブロックと列ブロックの和は、与えられたブロックSPD境界によって制約される。 そのようなブロック結合行列の集合に新しいリーマン多様体構造を与える。 これにより、汎用リーマン最適化フレームワークを利用して、一般的なSPD行列値OT問題を解くことができる。 提案手法の有効性をいくつかのアプリケーションで説明する。

Optimal transport (OT) has seen its popularity in various fields of applications. We start by observing that the OT problem can be viewed as an instance of a general symmetric positive definite (SPD) matrix-valued OT problem, where the cost, the marginals, and the coupling are represented as block matrices and each component block is a SPD matrix. The summation of row blocks and column blocks in the coupling matrix are constrained by the given block-SPD marginals. We endow the set of such block-coupling matrices with a novel Riemannian manifold structure. This allows to exploit the versatile Riemannian optimization framework to solve generic SPD matrix-valued OT problems. We illustrate the usefulness of the proposed approach in several applications.
翻訳日:2022-02-01 17:56:57 公開日:2022-01-30
# 混在交通環境におけるマルチエージェント意思決定のためのグラフ畳み込みに基づく深層強化学習

Graph Convolution-Based Deep Reinforcement Learning for Multi-Agent Decision-Making in Mixed Traffic Environments ( http://arxiv.org/abs/2201.12776v1 )

ライセンス: Link先を確認
Qi Liu, Zirui Li, Xueyuan Li, Jingda Wu, Shihua Yuan(参考訳) インテリジェント交通システムにおける連結自動運転車の安全かつ効率的な運転には,効率的かつ信頼性の高いマルチエージェント意思決定システムが必要である。 現在の研究は主に深層強化学習(DRL)手法に焦点を当てている。 しかし, 対話的交通シナリオにおけるdrl手法の利用は, 異なる車両間の相互効果を表現できないため, 動的交通環境をモデル化することが困難であり, 協調的意思決定の精度が低下する。 これらの課題に対処するため,本研究では,異なるグラフ強化学習(grl)手法による意思決定を可能にする枠組みを提案し,対話型運転シナリオにおける性能比較を行う。 GRL法はグラフニューラルネットワーク(GNN)とDRLを組み合わせることで、GNNによって対話的なシナリオの特徴が抽出され、DRLフレームワークによって協調行動が生成される自動運転車の対話的なシナリオにおいて、より良い意思決定を実現する。 いくつかのGRLアプローチを要約し、提案したフレームワークで実装する。 提案手法の性能を評価するため,2つのランプを有する高速道路における対話運転シナリオを構築し,SUMOプラットフォームにおけるシミュレーション実験を行い,異なるGRL手法の性能評価を行った。 最後に、知的輸送シナリオにおけるGRLアプローチの特徴を比較するために、複数の視点と次元で分析する。 その結果、GNNの実装は車両間の相互作用をうまく表現でき、GNNとDRLの組み合わせは車線変更行動の生成性能を向上させることができることがわかった。 私たちの作業のソースコードはhttps://github.com/J acklinkk/TorchGRL.co mで確認できます。

An efficient and reliable multi-agent decision-making system is highly demanded for the safe and efficient operation of connected autonomous vehicles in intelligent transportation systems. Current researches mainly focus on the Deep Reinforcement Learning (DRL) methods. However, utilizing DRL methods in interactive traffic scenarios is hard to represent the mutual effects between different vehicles and model the dynamic traffic environments due to the lack of interactive information in the representation of the environments, which results in low accuracy of cooperative decisions generation. To tackle these difficulties, this research proposes a framework to enable different Graph Reinforcement Learning (GRL) methods for decision-making, and compares their performance in interactive driving scenarios. GRL methods combinate the Graph Neural Network (GNN) and DRL to achieve the better decisions generation in interactive scenarios of autonomous vehicles, where the features of interactive scenarios are extracted by the GNN, and cooperative behaviors are generated by DRL framework. Several GRL approaches are summarized and implemented in the proposed framework. To evaluate the performance of the proposed GRL methods, an interactive driving scenarios on highway with two ramps is constructed, and simulated experiment in the SUMO platform is carried out to evaluate the performance of different GRL approaches. Finally, results are analyzed in multiple perspectives and dimensions to compare the characteristic of different GRL approaches in intelligent transportation scenarios. Results show that the implementation of GNN can well represents the interaction between vehicles, and the combination of GNN and DRL is able to improve the performance of the generation of lane-change behaviors. The source code of our work can be found at https://github.com/J acklinkk/TorchGRL.
翻訳日:2022-02-01 17:28:42 公開日:2022-01-30
# Debiased-CAMによる機械学習の忠実な視覚的説明による系統的誤りの軽減

Debiased-CAM to mitigate systematic error with faithful visual explanations of machine learning ( http://arxiv.org/abs/2201.12835v1 )

ライセンス: Link先を確認
Wencan Zhang, Mariella Dimiccoli, Brian Y. Lim(参考訳) 正当性マップのようなモデル説明は、予測の重要な特徴を強調することによって、AIのユーザ信頼を向上させることができる。 しかし、系統的誤り(bia)の対象となる画像の予測を説明すると、これらは歪んで誤解を招く。 さらに、様々な要因(青、色温度、昼夜)に偏った画像のモデル微調整にもかかわらず、歪みは持続する。 本稿では,多入力マルチタスクモデルと補助タスクを訓練し,バイアスレベルの予測を行うことにより,様々なバイアスタイプやレベルにまたがる説明忠実性を回復するデバイアスドカムを提案する。 シミュレーション研究において、このアプローチは予測精度を高めるだけでなく、画像が偏っていないかのようにこれらの予測について非常に忠実な説明を生み出した。 ユーザ研究において、偏りのある説明は、ユーザタスクのパフォーマンス、認識された真理性、および認識された有用性を改善した。 debiased trainingは、データバイアスのある幅広いアプリケーションに対して、堅牢なパフォーマンスと説明の忠実性のための多彩なプラットフォームを提供することができる。

Model explanations such as saliency maps can improve user trust in AI by highlighting important features for a prediction. However, these become distorted and misleading when explaining predictions of images that are subject to systematic error (bias). Furthermore, the distortions persist despite model fine-tuning on images biased by different factors (blur, color temperature, day/night). We present Debiased-CAM to recover explanation faithfulness across various bias types and levels by training a multi-input, multi-task model with auxiliary tasks for explanation and bias level predictions. In simulation studies, the approach not only enhanced prediction accuracy, but also generated highly faithful explanations about these predictions as if the images were unbiased. In user studies, debiased explanations improved user task performance, perceived truthfulness and perceived helpfulness. Debiased training can provide a versatile platform for robust performance and explanation faithfulness for a wide range of applications with data biases.
翻訳日:2022-02-01 17:28:15 公開日:2022-01-30
# 因果効果推定のためのメタラーナー:有限サンプルクロスフィット性能

Meta-Learners for Estimation of Causal Effects: Finite Sample Cross-Fit Performance ( http://arxiv.org/abs/2201.12692v1 )

ライセンス: Link先を確認
Gabriel Okasa(参考訳) 機械学習手法による因果効果の推定は、計量学の活発な研究分野となっている。 本稿では, メタラーナーの有限サンプル性能について検討し, オーバーフィッティングバイアスを低減するために, サンプル分割とクロスフィッティングを用いた不均一処理効果の評価を行った。 合成および半合成のシミュレーションでは, 有限試料中のメタラーナーの性能は推定法に大きく依存することがわかった。 その結果, サンプルスプリッティングとクロスフィッティングは, メタリーナーのバイアス低減と効率向上に有効であり, フルサンプル推定は小さい試料で好適であることが示唆された。 さらに,処理共有やサンプルサイズなど,特定のデータ特性に応じて,特定のメタラーナーを実証研究に適用するための実践的勧告を導出する。

Estimation of causal effects using machine learning methods has become an active research field in econometrics. In this paper, we study the finite sample performance of meta-learners for estimation of heterogeneous treatment effects under the usage of sample-splitting and cross-fitting to reduce the overfitting bias. In both synthetic and semi-synthetic simulations we find that the performance of the meta-learners in finite samples greatly depends on the estimation procedure. The results imply that sample-splitting and cross-fitting are beneficial in large samples for bias reduction and efficiency of the meta-learners, respectively, whereas full-sample estimation is preferable in small samples. Furthermore, we derive practical recommendations for application of specific meta-learners in empirical studies depending on particular data characteristics such as treatment shares and sample size.
翻訳日:2022-02-01 17:27:59 公開日:2022-01-30
# ラベルノイズによる学習における損失の分散を罰する必要はあるか?

Do We Need to Penalize Variance of Losses for Learning with Label Noise? ( http://arxiv.org/abs/2201.12739v1 )

ライセンス: Link先を確認
Yexiong Lin, Yu Yao, Yuxuan Du, Jun Yu, Bo Han, Mingming Gong, Tongliang Liu(参考訳) 平均損失を最小限に抑えるアルゴリズムは、ノイズラベルを扱うために広く設計されている。 直観的には、有限のトレーニングサンプルが存在する場合、損失の分散はアルゴリズムの安定性と一般化を改善する。 興味深いことに,ノイズラベルを用いた学習では,差分を増大させる必要がある。 特に、ばらつきの増加は記憶効果を高め、不正ラベルの有害性を減少させる。 ラベルノイズ遷移行列を利用することで、正規化器は損失の分散を低減し、既存の多くのアルゴリズムにプラグインすることができる。 実験的に,損失の分散を増大させることにより,合成データセットと実世界のデータセットのベースラインの一般化能力を大幅に向上させる。

Algorithms which minimize the averaged loss have been widely designed for dealing with noisy labels. Intuitively, when there is a finite training sample, penalizing the variance of losses will improve the stability and generalization of the algorithms. Interestingly, we found that the variance should be increased for the problem of learning with noisy labels. Specifically, increasing the variance will boost the memorization effects and reduce the harmfulness of incorrect labels. By exploiting the label noise transition matrix, regularizers can be easily designed to reduce the variance of losses and be plugged in many existing algorithms. Empirically, the proposed method by increasing the variance of losses significantly improves the generalization ability of baselines on both synthetic and real-world datasets.
翻訳日:2022-02-01 17:13:46 公開日:2022-01-30
# GARNET:ロバストでスケーラブルなグラフニューラルネットワークのための低ランクトポロジー学習

GARNET: Reduced-Rank Topology Learning for Robust and Scalable Graph Neural Networks ( http://arxiv.org/abs/2201.12741v1 )

ライセンス: Link先を確認
Chenhui Deng, Xiuyu Li, Zhuo Feng, Zhiru Zhang(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドデータでの学習を含むさまざまなアプリケーションにますます導入されている。 しかし、近年の研究では、GNNはグラフ敵攻撃に弱いことが示されている。 敵成分を除去することでGNNの堅牢性を改善するための防御手法はいくつか存在するが、GNNトレーニングに寄与する基礎となるクリーングラフ構造を損なう可能性もある。 加えて、計算の複雑さとメモリ使用量が高いため、大規模なグラフにスケールできる防衛モデルはほとんどない。 本稿では,GNNモデルの対角的ロバスト性を高めるため,スケーラブルなスペクトル法であるGARNETを提案する。 GARNETはまず、重み付きスペクトル埋め込みを利用してベースグラフを構築する。 次に、GARNETは確率的グラフィカルモデルに基づいて、追加の非クリティカルエッジをプルーニングすることで、ベースグラフをさらに洗練する。 GARNETは、数百万のノードを持つ大きなグラフを含む、さまざまなデータセットで評価されている。 GARNETは,最先端のGNNモデルに対して,それぞれ最大13.27%,14.7倍の精度向上と実行速度向上を実現している。

Graph neural networks (GNNs) have been increasingly deployed in various applications that involve learning on non-Euclidean data. However, recent studies show that GNNs are vulnerable to graph adversarial attacks. Although there are several defense methods to improve GNN robustness by eliminating adversarial components, they may also impair the underlying clean graph structure that contributes to GNN training. In addition, few of those defense models can scale to large graphs due to their high computational complexity and memory usage. In this paper, we propose GARNET, a scalable spectral method to boost the adversarial robustness of GNN models. GARNET first leverages weighted spectral embedding to construct a base graph, which is not only resistant to adversarial attacks but also contains critical (clean) graph structure for GNN training. Next, GARNET further refines the base graph by pruning additional uncritical edges based on probabilistic graphical model. GARNET has been evaluated on various datasets, including a large graph with millions of nodes. Our extensive experiment results show that GARNET achieves adversarial accuracy improvement and runtime speedup over state-of-the-art GNN (defense) models by up to 13.27% and 14.7x, respectively.
翻訳日:2022-02-01 17:13:34 公開日:2022-01-30
# 多領域テキスト分類のための共正規化adversarial learning

Co-Regularized Adversarial Learning for Multi-Domain Text Classification ( http://arxiv.org/abs/2201.12796v1 )

ライセンス: Link先を確認
Yuan Wu, Diana Inkpen, Ahmed El-Roby(参考訳) マルチドメインテキスト分類(MDTC)は、複数のドメインから利用可能なすべてのリソースを活用して、これらのドメインをうまく一般化できる予測モデルを学ぶことを目的としている。 近年,多くのMDTC手法が対向学習,共有私的パラダイム,エントロピー最小化を採用して最先端の成果を上げている。 ドメイン分割の最小化はドメインアライメントの成功を完全に保証できない; (2) 限界特徴分布のアライメントは学習特徴の識別性を十分に保証できない; (3) 標準エントロピーの最小化は、未ラベルデータの予測を過度に信頼し、学習特徴の識別性を損なう可能性がある。 上記の課題に対処するため,MDTCのための協調正規化逆学習(CRAL)機構を提案する。 このアプローチは2つの異なる共有潜在空間を構築し、それぞれにドメインアライメントを行い、ラベルなしデータの予測に関してこれらの2つのアライメントの不一致を罰する。 さらに、エントロピーを最小化した仮想対位訓練(VAT)を導入し、CRAL法に整合性正規化を課す。 2つのMDTCベンチマークにおいて,本モデルが最先端の手法より優れていることを示す。

Multi-domain text classification (MDTC) aims to leverage all available resources from multiple domains to learn a predictive model that can generalize well on these domains. Recently, many MDTC methods adopt adversarial learning, shared-private paradigm, and entropy minimization to yield state-of-the-art results. However, these approaches face three issues: (1) Minimizing domain divergence can not fully guarantee the success of domain alignment; (2) Aligning marginal feature distributions can not fully guarantee the discriminability of the learned features; (3) Standard entropy minimization may make the predictions on unlabeled data over-confident, deteriorating the discriminability of the learned features. In order to address the above issues, we propose a co-regularized adversarial learning (CRAL) mechanism for MDTC. This approach constructs two diverse shared latent spaces, performs domain alignment in each of them, and punishes the disagreements of these two alignments with respect to the predictions on unlabeled data. Moreover, virtual adversarial training (VAT) with entropy minimization is incorporated to impose consistency regularization to the CRAL method. Experiments show that our model outperforms state-of-the-art methods on two MDTC benchmarks.
翻訳日:2022-02-01 17:13:17 公開日:2022-01-30
# グラフニューラルネットワーク表現の復元性について

On Recoverability of Graph Neural Network Representations ( http://arxiv.org/abs/2201.12843v1 )

ライセンス: Link先を確認
Maxim Fishman, Chaim Baskin, Evgenii Zheltonozhskii, Ron Banner, Avi Mendelson(参考訳) その人気は高まっているが、グラフニューラルネットワーク(gnn)は、より表現力のある集約方法の発見、遠方のノードへの情報の伝播、大規模グラフのトレーニングなど、未解決の問題を数多く抱えている。 このような問題の理解と解決には分析ツールやテクニックの開発が必要である。 本稿では,GNNにおける情報集約と密接な関係を持つリカバリ可能性の概念を提案し,その概念に基づいて,GNN埋め込み解析の手法を開発した。 理論的に回復可能性を定義し,その効率的な経験的推定法を提案する。 様々なデータセットおよび異なるGNNアーキテクチャに関する広範な実験結果を通じて、推定された回復可能性とアグリゲーション手法の表現性およびグラフスペーシフィケーション品質の関係を実証する。 したがって,提案手法は,上記の問題の根源を理解する上で不可欠なツールとなり,それを克服するGNN設計に繋がる可能性が示唆された。 実験を再現するコードはhttps://github.com/匿名1252022/recoverabili tyで利用可能です。

Despite their growing popularity, graph neural networks (GNNs) still have multiple unsolved problems, including finding more expressive aggregation methods, propagation of information to distant nodes, and training on large-scale graphs. Understanding and solving such problems require developing analytic tools and techniques. In this work, we propose the notion of recoverability, which is tightly related to information aggregation in GNNs, and based on this concept, develop the method for GNN embedding analysis. We define recoverability theoretically and propose a method for its efficient empirical estimation. We demonstrate, through extensive experimental results on various datasets and different GNN architectures, that estimated recoverability correlates with aggregation method expressivity and graph sparsification quality. Therefore, we believe that the proposed method could provide an essential tool for understanding the roots of the aforementioned problems, and potentially lead to a GNN design that overcomes them. The code to reproduce our experiments is available at https://github.com/A nonymous1252022/Reco verability
翻訳日:2022-02-01 17:12:55 公開日:2022-01-30
# グラフニューラルネットワークの不変式発見

Discovering Invariant Rationales for Graph Neural Networks ( http://arxiv.org/abs/2201.12872v1 )

ライセンス: Link先を確認
Ying-Xin Wu, Xiang Wang, An Zhang, Xiangnan He, Tat-Seng Chua(参考訳) グラフニューラルネットワーク(gnns)の本質的な解釈可能性とは、モデル予測を導く入力グラフの機能の小さなサブセットである論理的部分集合を見つけることである。 残念なことに、主要な合理化モデルは、しばしばデータバイアス、特に近道機能に依存して、重要なパターンや因果パターンを突き止めることなく合理性を構成し、予測する。 さらに、トレーニング分布外のデータバイアスも容易に変化する。 その結果、これらのモデルは、分散データに対する解釈可能性と予測性能が大幅に低下する。 本研究では,不変理性(DIR)を発見し,本質的に解釈可能なGNNを構築するための新しい戦略を提案する。 訓練分布に対する介入を行い、複数の介入分布を作成する。 そして、異なる分布にまたがる不変な因果的合理性にアプローチし、不安定な散発的なパターンをフィルタリングする。 合成と実世界の両方のデータセットの実験は、主要なベースライン上のグラフ分類における解釈可能性および一般化能力の観点から、我々のDIRの優位性を検証する。 コードとデータセットはhttps://github.com/W uyxin/DIR-GNNで入手できる。

Intrinsic interpretability of graph neural networks (GNNs) is to find a small subset of the input graph's features -- rationale -- which guides the model prediction. Unfortunately, the leading rationalization models often rely on data biases, especially shortcut features, to compose rationales and make predictions without probing the critical and causal patterns. Moreover, such data biases easily change outside the training distribution. As a result, these models suffer from a huge drop in interpretability and predictive performance on out-of-distribution data. In this work, we propose a new strategy of discovering invariant rationale (DIR) to construct intrinsically interpretable GNNs. It conducts interventions on the training distribution to create multiple interventional distributions. Then it approaches the causal rationales that are invariant across different distributions while filtering out the spurious patterns that are unstable. Experiments on both synthetic and real-world datasets validate the superiority of our DIR in terms of interpretability and generalization ability on graph classification over the leading baselines. Code and datasets are available at https://github.com/W uyxin/DIR-GNN.
翻訳日:2022-02-01 17:11:12 公開日:2022-01-30
# グラフニューラルネットワーク拡張の理論的比較

A Theoretical Comparison of Graph Neural Network Extensions ( http://arxiv.org/abs/2201.12884v1 )

ライセンス: Link先を確認
P\'al Andr\'as Papp, Roger Wattenhofer(参考訳) Wesfeiler-Lemanテスト以外のGNNの表現力を高めるグラフニューラルネットワーク拡張について検討し比較する。 焦点をあてる (i)高次WL法に基づくGNN (ii)グラフ内の小さなサブ構造を前処理するGNN (iii)グラフを小さな半径まで前処理するgnn、及び (iv)埋め込みを計算するためにグラフをわずかに乱すGNN。 我々はまず、このGNN変異の表現力を厳密に増強する最後の拡張に対する単純な改善を示すことから始める。 次に,本研究の主な結果として,拡張の表現性について,拡張の一方で区別できるが他方では区別できない一連の例構成を用いて比較する。 また、各拡張に対して特に困難である負の例を示し、これらの拡張がグラフの傾きとサイクルを数えることができるといういくつかの主張を証明している。

We study and compare different Graph Neural Network extensions that increase the expressive power of GNNs beyond the Weisfeiler-Leman test. We focus on (i) GNNs based on higher order WL methods, (ii) GNNs that preprocess small substructures in the graph, (iii) GNNs that preprocess the graph up to a small radius, and (iv) GNNs that slightly perturb the graph to compute an embedding. We begin by presenting a simple improvement for this last extension that strictly increases the expressive power of this GNN variant. Then, as our main result, we compare the expressiveness of these extensions to each other through a series of example constructions that can be distinguished by one of the extensions, but not by another one. We also show negative examples that are particularly challenging for each of the extensions, and we prove several claims about the ability of these extensions to count cliques and cycles in the graph.
翻訳日:2022-02-01 17:10:54 公開日:2022-01-30
# PLATINUM:サブモジュール相互情報を用いた半教師付きメタラーニング

PLATINUM: Semi-Supervised Model Agnostic Meta-Learning using Submodular Mutual Information ( http://arxiv.org/abs/2201.12928v1 )

ライセンス: Link先を確認
Changbin Li, Suraj Kothawade, Feng Chen, Rishabh Iyer(参考訳) FSC (Few-shot Classification) は、クラスごとに少数の(通常1から5までの)データポイントを使用するトレーニングモデルを必要とする。 メタ学習は、他の様々な分類タスクのトレーニングによって、FSCのパラメータ化モデルを学習できることが証明されている。 本研究では、サブモジュラー相互情報(SMI)機能を用いて、FSCの性能を高める新しい半教師付きメタ学習フレームワークPLATINUM(semi-suPerv ised modeL Agnostic meTa-learnIng usiNg sUbmodular Mutual information)を提案する。 PLATINUMは、メタトレーニング中にSMI関数を使用して、内外ループのラベルなしデータを活用し、メタテストのためのより豊かなメタ学習パラメータ化を得る。 PLATINUMの性能を2つのシナリオで検討する - 1)ラベルなしデータポイントは、あるエピソードのラベル付きセットと同じクラスに属し、 2) ラベル付き集合に属さない分配外クラスが存在する場合。 本手法は, miniImageNet, tieredImageNet, Fewshot-CIFAR100データセットの様々な設定で評価する。 実験の結果,PLATINUM はMAML や半教師付き FSC の pseduo-labeling などの半教師付きアプローチよりも優れており,特にクラスごとのラベル付き例の少なさが顕著であった。

Few-shot classification (FSC) requires training models using a few (typically one to five) data points per class. Meta learning has proven to be able to learn a parametrized model for FSC by training on various other classification tasks. In this work, we propose PLATINUM (semi-suPervised modeL Agnostic meTa-learnIng usiNg sUbmodular Mutual information), a novel semi-supervised model agnostic meta-learning framework that uses the submodular mutual information (SMI) functions to boost the performance of FSC. PLATINUM leverages unlabeled data in the inner and outer loop using SMI functions during meta-training and obtains richer meta-learned parameterizations for meta-test. We study the performance of PLATINUM in two scenarios - 1) where the unlabeled data points belong to the same set of classes as the labeled set of a certain episode, and 2) where there exist out-of-distribution classes that do not belong to the labeled set. We evaluate our method on various settings on the miniImageNet, tieredImageNet and Fewshot-CIFAR100 datasets. Our experiments show that PLATINUM outperforms MAML and semi-supervised approaches like pseduo-labeling for semi-supervised FSC, especially for small ratio of labeled examples per class.
翻訳日:2022-02-01 17:10:42 公開日:2022-01-30
# ロバスト値関数の幾何学

The Geometry of Robust Value Functions ( http://arxiv.org/abs/2201.12929v1 )

ライセンス: Link先を確認
Kaixin Wang, Navdeep Kumar, Kuangqi Zhou, Bryan Hooi, Jiashi Feng, Shie Mannor(参考訳) 価値関数の空間は強化学習の基本的な概念である。 その幾何学的性質を特徴付けることは、最適化と表現の洞察を与えるかもしれない。 既存の作業は主にマルコフ決定プロセス(MDP)の値空間に焦点を当てている。 本稿では、遷移の不確実性を考慮したより一般的なロバストMDP(RMDP)設定のためのロバスト値空間の幾何学について検討する。 具体的には、RMDPへの事前アプローチの適応が困難であることから、非ロバストケースの再検討から始め、非ロバストな値空間とロバストな値空間の両方を同様の方法で特徴付けることができる新しい視点を導入する。 この観点の鍵は、値空間を状態的に超曲面の和集合に分解することである。 解析を通して、ロバストな値空間は円錐超曲面の集合によって決定され、それぞれが一つの状態に一致する全てのポリシーのロバストな値を含むことを示す。 さらに、不確実性集合において極点のみを取ると、ロバストな値空間を決定するのに十分である。 最後に、複数の州に対する非凸性と政策合意など、ロバストな価値空間に関する他の側面について論じる。

The space of value functions is a fundamental concept in reinforcement learning. Characterizing its geometric properties may provide insights for optimization and representation. Existing works mainly focus on the value space for Markov Decision Processes (MDPs). In this paper, we study the geometry of the robust value space for the more general Robust MDPs (RMDPs) setting, where transition uncertainties are considered. Specifically, since we find it hard to directly adapt prior approaches to RMDPs, we start with revisiting the non-robust case, and introduce a new perspective that enables us to characterize both the non-robust and robust value space in a similar fashion. The key of this perspective is to decompose the value space, in a state-wise manner, into unions of hypersurfaces. Through our analysis, we show that the robust value space is determined by a set of conic hypersurfaces, each of which contains the robust values of all policies that agree on one state. Furthermore, we find that taking only extreme points in the uncertainty set is sufficient to determine the robust value space. Finally, we discuss some other aspects about the robust value space, including its non-convexity and policy agreement on multiple states.
翻訳日:2022-02-01 17:10:18 公開日:2022-01-30
# ビデオによる顔のマイクロ圧縮分析:データセット,特徴,アルゴリズムの調査

Video-based Facial Micro-Expression Analysis: A Survey of Datasets, Features and Algorithms ( http://arxiv.org/abs/2201.12728v1 )

ライセンス: Link先を確認
Xianye Ben and Yi Ren and Junping Zhang and Su-Jing Wang and Kidiyo Kpalma, Weixiao Meng and Yong-Jin Liu(参考訳) 従来の表情とは異なり、マイクロ表現は不随意かつ過渡的な表情であり、人々が隠そうとする真の感情を明らかにすることができる。 したがって、嘘検出や犯罪検出など、幅広い応用において重要な情報を提供することができる。 しかし、マイクロ表現は過渡的で低強度であるため、検出と認識は困難であり、専門家の経験に大きく依存している。 その固有の特異性と複雑さのため、ビデオベースのマイクロ圧縮分析は魅力的だが困難であり、近年は研究の活発な領域となっている。 この分野では数多くの開発が続けられているが、これまでのところ、これらの開発を体系的に概観する総合的な調査は行われていない。 そこで本研究では,まず,マクロ表現とマイクロ表現の大きな違いを強調し,その違いを,脳心理学的基盤,データセット,特徴量,スポッティングアルゴリズム,認識アルゴリズム,応用,最先端アプローチの評価を含む,カスケード構造におけるビデオベースのマイクロ表現解析の研究のガイドに利用する。 それぞれの側面において、基本的な技術、高度な開発、そして大きな課題に対処し、議論する。 さらに,既存のマイクロ表現データセットの制限を考慮した上で,新たなデータセットであるmicro-and-macro expression warehouse (mmew) を提示し,公開する。 次に、スポッティングのためのCAS(ME)2と、認識のためのMMEWとSAMMに代表法を統一的に比較する。 最後に、将来の研究の方向性を探究し、概説する。

Unlike the conventional facial expressions, micro-expressions are involuntary and transient facial expressions capable of revealing the genuine emotions that people attempt to hide. Therefore, they can provide important information in a broad range of applications such as lie detection, criminal detection, etc. Since micro-expressions are transient and of low intensity, however, their detection and recognition is difficult and relies heavily on expert experiences. Due to its intrinsic particularity and complexity, video-based micro-expression analysis is attractive but challenging, and has recently become an active area of research. Although there have been numerous developments in this area, thus far there has been no comprehensive survey that provides researchers with a systematic overview of these developments with a unified evaluation. Accordingly, in this survey paper, we first highlight the key differences between macro- and micro-expressions, then use these differences to guide our research survey of video-based micro-expression analysis in a cascaded structure, encompassing the neuropsychological basis, datasets, features, spotting algorithms, recognition algorithms, applications and evaluation of state-of-the-art approaches. For each aspect, the basic techniques, advanced developments and major challenges are addressed and discussed. Furthermore, after considering the limitations of existing micro-expression datasets, we present and release a new dataset - called micro-and-macro expression warehouse (MMEW) - containing more video samples and more labeled emotion types. We then perform a unified comparison of representative methods on CAS(ME)2 for spotting, and on MMEW and SAMM for recognition, respectively. Finally, some potential future research directions are explored and outlined.
翻訳日:2022-02-01 17:04:39 公開日:2022-01-30
# RIM-Net:階層形状構造の教師なし学習のための再帰的命令場

RIM-Net: Recursive Implicit Fields for Unsupervised Learning of Hierarchical Shape Structures ( http://arxiv.org/abs/2201.12763v1 )

ライセンス: Link先を確認
Chengjie Niu, Manyi Li, Kai Xu, Hao Zhang(参考訳) 本稿では,階層型構造の教師なし推論のための再帰的暗黙的場を学習するニューラルネットワークRIM-Netを紹介する。 我々のネットワークは入力された3d形状を2つの部分に分けて再帰的に分解する。 木の各レベルは、入力形状を再構築するために暗黙の関数として表される形状部品の集合に対応する。 木の各ノードにおいて、各特徴デコードと部分デコーダによって同時特徴デコードと形状分解が行われ、重みが同じ階層レベルで共有される。 暗黙のフィールドデコーダとして、部分デコーダは、各ブランチがガウシアンを定義するパラメータの集合を予測し、形状再構成のための局所的な点分布となる部分形状を分解するように設計されている。 各階層レベルでの再構成損失と各ノードでの分解損失が考慮されているため、ネットワークトレーニングでは階層構造に留まらず、基幹セグメンテーションは不要である。 rim-net による階層的構造推論の品質,一貫性,解釈可能性について,最先端の代替案に対する広範な実験と比較を行った。

We introduce RIM-Net, a neural network which learns recursive implicit fields for unsupervised inference of hierarchical shape structures. Our network recursively decomposes an input 3D shape into two parts, resulting in a binary tree hierarchy. Each level of the tree corresponds to an assembly of shape parts, represented as implicit functions, to reconstruct the input shape. At each node of the tree, simultaneous feature decoding and shape decomposition are carried out by their respective feature and part decoders, with weight sharing across the same hierarchy level. As an implicit field decoder, the part decoder is designed to decompose a sub-shape, via a two-way branched reconstruction, where each branch predicts a set of parameters defining a Gaussian to serve as a local point distribution for shape reconstruction. With reconstruction losses accounted for at each hierarchy level and a decomposition loss at each node, our network training does not require any ground-truth segmentations, let alone hierarchies. Through extensive experiments and comparisons to state-of-the-art alternatives, we demonstrate the quality, consistency, and interpretability of hierarchical structural inference by RIM-Net.
翻訳日:2022-02-01 17:04:12 公開日:2022-01-30
# 弱サブネット強化による腐敗と敵対的ロバスト性の向上

Improving Corruption and Adversarial Robustness by Enhancing Weak Subnets ( http://arxiv.org/abs/2201.12765v1 )

ライセンス: Link先を確認
Yong Guo, David Stutz, Bernt Schiele(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクで大きな成功を収めた。 しかし、ディープネットワークは破損した画像や敵画像に非常に影響を受けやすいことが示されており、しばしば大きな性能低下をもたらす。 本稿では,弱サブネットワーク(サブネット)の性能が,汚職に対する堅牢性の欠如や敵攻撃と相関していることを示す。 そこで本研究では,ロバストネス向上のためのトレーニングにおいて,弱いサブネット(EWS)を明確に識別し,強化する新しいロバストトレーニング手法を提案する。 具体的には,特に弱いサブネットを探索する探索アルゴリズムを開発し,全ネットワークからの知識蒸留により,それを明示的に強化することを提案する。 EWSは、破損した画像に対するロバスト性を大幅に改善し、クリーンなデータの正確性も向上することを示す。 多くの最先端のデータ拡張アプローチを補完するものとして、EWSは、これらのアプローチの上位にある汚職の堅牢性を一貫して改善します。 さらに、EWSは、一般的な対人訓練手法と組み合わせることで、対人ロバスト性を高めることができる。

Deep neural networks have achieved great success in many computer vision tasks. However, deep networks have been shown to be very susceptible to corrupted or adversarial images, which often result in significant performance drops. In this paper, we observe that weak subnetwork (subnet) performance is correlated with a lack of robustness against corruptions and adversarial attacks. Based on that observation, we propose a novel robust training method which explicitly identifies and enhances weak subnets (EWS) during training to improve robustness. Specifically, we develop a search algorithm to find particularly weak subnets and propose to explicitly strengthen them via knowledge distillation from the full network. We show that our EWS greatly improves the robustness against corrupted images as well as the accuracy on clean data. Being complementary to many state-of-the-art data augmentation approaches, EWS consistently improves corruption robustness on top of many of these approaches. Moreover, EWS is also able to boost the adversarial robustness when combined with popular adversarial training methods.
翻訳日:2022-02-01 17:03:48 公開日:2022-01-30
# グローバル機能をローカルビジョントランスフォーマーに集約する

Aggregating Global Features into Local Vision Transformer ( http://arxiv.org/abs/2201.12903v1 )

ライセンス: Link先を確認
Krushi Patel, Andres M. Bur, Fengjun Li, Guanghui Wang(参考訳) 局所変換器に基づく分類モデルは,比較的計算コストの低い有望な結果を得た。 しかし,ローカルトランスフォーマーアーキテクチャにおける空間的グローバル情報の集約効果は明らかでない。 本研究は, 局所窓型変圧器における多分解能重畳重畳重畳重畳加群 (MOA) の適用結果について検討した。 提案したMOAは、キーに少し大きく重なり合うパッチを用いて、近隣の画素情報伝送を可能にし、性能が大幅に向上する。 また,本質的なアーキテクチャ要素の寸法の影響を広範囲な実験により徹底的に検討し,最適なアーキテクチャ設計を見出した。 広範な実験結果 cifar-10, cifar-100, imagenet-1k データセットは,提案手法が従来の視覚トランスフォーマーよりも少ないパラメータで優れていることを示している。

Local Transformer-based classification models have recently achieved promising results with relatively low computational costs. However, the effect of aggregating spatial global information of local Transformer-based architecture is not clear. This work investigates the outcome of applying a global attention-based module named multi-resolution overlapped attention (MOA) in the local window-based transformer after each stage. The proposed MOA employs slightly larger and overlapped patches in the key to enable neighborhood pixel information transmission, which leads to significant performance gain. In addition, we thoroughly investigate the effect of the dimension of essential architecture components through extensive experiments and discover an optimum architecture design. Extensive experimental results CIFAR-10, CIFAR-100, and ImageNet-1K datasets demonstrate that the proposed approach outperforms previous vision Transformers with a comparatively fewer number of parameters.
翻訳日:2022-02-01 17:01:46 公開日:2022-01-30
# 他言語を用いた低リソース言語の音声タグ付け(POST)の一部(タグ付きペルシャ語コーパスを用いたクルド語(ソラニ語)用POSタグ辞書の開発)

Part of Speech Tagging (POST) of a Low-resource Language using another Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged Persian (Farsi) Corpus) ( http://arxiv.org/abs/2201.12793v1 )

ライセンス: Link先を確認
Hossein Hassani(参考訳) タグ付きコーパスは、幅広い自然言語処理において重要な役割を果たす。 音声タグ付け(POST)は,タグ付けコーパスの開発に不可欠である。 時間と費用がかかるため、自動化すればより手頃な価格になる可能性がある。 クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。 公開されているクルド人コーポラをタグ付けすることで、これらの資源の能力は生または分節コーポラが提供するものよりも高いレベルに活用できる。 POSタグ付きレキシコンの開発は、前述のタスクを支援することができる。 ペルシャ語(farsi)のタグ付きコーパス(bijankhan corpus)をクルド語に近い言語として使用し,posタグ付きレキシコンを開発した。 本稿では,近い言語の資源をクルド語に活用して資源を豊かにする手法を提案する。 結果の一部のデータセットは、https://kurdishblark .github.io/のcc by-nc-sa 4.0ライセンスの下で非商用利用で公開されている。 結果のさらなる調査の後、タグ付きコーパス全体を利用可能にする予定だ。 このデータセットは、他のクルド語方言のためのposタグ付き辞書を開発するのに役立つ。

Tagged corpora play a crucial role in a wide range of Natural Language Processing. The Part of Speech Tagging (POST) is essential in developing tagged corpora. It is time-and-effort-cons uming and costly, and therefore, it could be more affordable if it is automated. The Kurdish language currently lacks publicly available tagged corpora of proper sizes. Tagging the publicly available Kurdish corpora can leverage the capability of those resources to a higher level than what raw or segmented corpora can provide. Developing POS-tagged lexicons can assist the mentioned task. We use a tagged corpus (Bijankhan corpus) in Persian (Farsi) as a close language to Kurdish to develop a POS-tagged lexicon. This paper presents the approach of leveraging the resource of a close language to Kurdish to enrich its resources. A partial dataset of the results is publicly available for non-commercial use under CC BY-NC-SA 4.0 license at https://kurdishblark .github.io/. We plan to make the whole tagged corpus available after further investigation on the outcome. The dataset can help in developing POS-tagged lexicons for other Kurdish dialects and automated Kurdish corpora tagging.
翻訳日:2022-02-01 16:27:37 公開日:2022-01-30
# サンスクリット語の単語分割と形態解析

Word Segmentation and Morphological Parsing for Sanskrit ( http://arxiv.org/abs/2201.12833v1 )

ライセンス: Link先を確認
Jingwen Li, Leander Girrbach(参考訳) 我々は,サンスクリットハッカソンにおけるワードセグメンテーションと形態解析(WSMP)への参加について述べる。 単語分割タスクを逐次ラベリングタスクとして,セグメンテーションを導出する編集操作を予測し,単語分割タスクにアプローチする。 形態素解析の課題として,屈折した単語を対応する語幹に変換する形態素タグと規則を予測した。 また,ジョイントセグメンテーションと形態解析のためのエンドツーエンドのトレーニング可能なパイプラインモデルを提案する。 本モデルは,合同セグメンテーション・分析サブタスク (80.018 f1 得点) で最高の成績を示し,個々のサブタスクで 2 番目の成績を示した(セグメンテーション: 96.189 f1 得点 / 分析: 69.180 f1 得点)。 最後に,モデルによる誤りを分析し,データと評価に関する今後の取り組みと改善の可能性を提案する。

We describe our participation in the Word Segmentation and Morphological Parsing (WSMP) for Sanskrit hackathon. We approach the word segmentation task as a sequence labelling task by predicting edit operations from which segmentations are derived. We approach the morphological analysis task by predicting morphological tags and rules that transform inflected words into their corresponding stems. Also, we propose an end-to-end trainable pipeline model for joint segmentation and morphological analysis. Our model performed best in the joint segmentation and analysis subtask (80.018 F1 score) and performed second best in the individual subtasks (segmentation: 96.189 F1 score / analysis: 69.180 F1 score). Finally, we analyse errors made by our models and suggest future work and possible improvements regarding data and evaluation.
翻訳日:2022-02-01 16:27:15 公開日:2022-01-30
# 同時翻訳のための予測なし学習

Anticipation-free Training for Simultaneous Translation ( http://arxiv.org/abs/2201.12868v1 )

ライセンス: Link先を確認
Chih-Chiang Chang, Shun-Po Chuang, Hung-yi Lee(参考訳) 同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。 言語間の文脈や語順の違いが限られているため、難しい。 既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。 しかし、長距離の再注文により、SimulMTモデルは誤って翻訳を学習する。 具体的には、対応するソーストークンが読まれていない場合には、ターゲットトークンを予測せざるを得ない。 これは推論中に積極的な予測をもたらし、幻覚現象を引き起こす。 この問題を軽減するため,我々は翻訳プロセスを単調翻訳ステップと再順序付けステップに分解する新しい枠組みを提案し,後者を補助ソートネットワーク(asn)でモデル化する。 ASNは、ターゲット言語の順序に合うように隠された状態を再構成するので、SimulMTモデルはより合理的に翻訳することを学ぶことができる。 モデル全体がエンドツーエンドに最適化されており、外部のアライメントやデータに依存しない。 推論中、ASNはストリーミングを達成するために削除される。 実験により、提案フレームワークは、レイテンシを少なくして、以前のメソッドを上回ることができることを示した。 ソースコードは利用可能である。

Simultaneous translation (SimulMT) speeds up the translation process by starting to translate before the source sentence is completely available. It is difficult due to limited context and word order difference between languages. Existing methods increase latency or introduce adaptive read-write policies for SimulMT models to handle local reordering and improve translation quality. However, the long-distance reordering would make the SimulMT models learn translation mistakenly. Specifically, the model may be forced to predict target tokens when the corresponding source tokens have not been read. This leads to aggressive anticipation during inference, resulting in the hallucination phenomenon. To mitigate this problem, we propose a new framework that decompose the translation process into the monotonic translation step and the reordering step, and we model the latter by the auxiliary sorting network (ASN). The ASN rearranges the hidden states to match the order in the target language, so that the SimulMT model could learn to translate more reasonably. The entire model is optimized end-to-end and does not rely on external aligners or data. During inference, ASN is removed to achieve streaming. Experiments show the proposed framework could outperform previous methods with less latency.\footnote{The source code is available.
翻訳日:2022-02-01 16:26:59 公開日:2022-01-30
# 物理にヒントを得たメタヒューリスティック最適化技術の概要

A Brief Overview of Physics-inspired Metaheuristic Optimization Techniques ( http://arxiv.org/abs/2201.12810v1 )

ライセンス: Link先を確認
Soumitri Chattopadhyay, Aritra Marik, Rishav Pramanik(参考訳) メタヒューリスティックアルゴリズム(Metaheuristic algorithm)は、計算的に困難な最適化問題を効率的に解くために考案された手法である。 研究者は様々な自然・物理的プロセスから着想を得て、いくつかの工学的タスクに最適あるいは最適に近い解を提供したメタヒューリスティックを定式化した。 本章では,具体的最適化パラダイムを有する非線形物理現象をモデルとしたメタヒューリスティックアルゴリズムに着目し,そのような最適化問題に対する強固な探索と活用能力を示す。 特に、この章は、いくつかの一般的な物理学に基づくメタヒューリスティックに焦点をあて、各アルゴリズムに付随する一意的な物理過程を記述する。

Metaheuristic algorithms are methods devised to efficiently solve computationally challenging optimization problems. Researchers have taken inspiration from various natural and physical processes alike to formulate meta-heuristics that have successfully provided near-optimal or optimal solutions to several engineering tasks. This chapter focuses on meta-heuristic algorithms modelled upon non-linear physical phenomena having a concrete optimization paradigm, having shown formidable exploration and exploitation abilities for such optimization problems. Specifically, this chapter focuses on several popular physics-based metaheuristics as well as describing the underlying unique physical processes associated with each algorithm.
翻訳日:2022-02-01 16:24:19 公開日:2022-01-30
# 低予測性データ条件下での知識グラフに基づくポテンシャル目的地予測

Potential Destination Prediction Based on Knowledge Graph Under Low Predictability Data Condition ( http://arxiv.org/abs/2201.12845v1 )

ライセンス: Link先を確認
Guilong Li, Yixian Chen, Qionghua Liao, Zhaocheng He(参考訳) 目的地予測は交通研究において重要な話題であり、多くの研究がある。 しかし、既存のほとんどの研究は高い予測可能性データ条件に基づいており、個々の個体の規則性が露出しない予測可能性の低いデータ条件にはあまり注意を払わない。 特定の観察期間に基づいて、個人が観測以上の目的地を選択できるという事実があり、これは「潜在的目的地」と呼ばれる。 潜在目的地数は非常に多く,短期観測による予測可能性の低いデータ条件では無視できないため,予測可能性の低いデータ条件下での個人候補の選択パターンを明らかにするため,知識グラフ埋め込みに基づくグローバル最適化手法を提案する。 まず、Trip Knowledge Graph(TKG)を構築することで、すべての個人の旅行データを結合する。 次に、学習戦略と目的関数におけるデータとタスクへの知識グラフ埋め込みの一般的なアルゴリズムを最適化し、TKG上で実装する。 tkg内のほぼ2つのエンティティ間に存在する関連付けパスのグローバル最適化を実現することができる。 そこで本研究では,各個人に対して観測不能な目的地のランク付けが可能な,潜在的な目的地予測手法を提案する。 また, tkgに渡さない静的統計情報を融合することにより, 性能の向上を図る。 最後に,本手法を実世界のデータセットで検証し,予測結果は個人の潜在的目的地選択行動と極めて一致している。

Destination prediction has been a critical topic in transportation research, and there are a large number of studies. However, almost all existing studies are based on high predictability data conditions while pay less attention to the data condition with low predictability, where the regularity of single individuals is not exposed. Based on a certain period of observation, there is a fact that individuals may choose destinations beyond observation, which we call "potential destinations". The number of potential destinations is very large and can't be ignored for the data condition with low predictability formed by short-term observation.To reveal the choice pattern of potential destination of individuals under the data condition with low predictability, we propose a global optimization method based on knowledge graph embedding. First, we joint the trip data of all individuals by constructing Trip Knowledge Graph(TKG). Next, we optimize the general algorithm of knowledge graph embedding for our data and task in training strategy and objective function, then implement it on TKG. It can achieve global optimization for association paths that exist between almost any two entities in TKG. On this basis, a method for potential destination prediction is proposed, giving the possible ranking of unobserved destinations for each individual. In addition, we improve the performance by fusing static statistical information that is not passed to TKG. Finally, we validate our method in a real-world dataset, and the prediction results are highly consistent with individuals' potential destination choice behaviour.
翻訳日:2022-02-01 16:24:08 公開日:2022-01-30
# 計算メタ認知

Computational Metacognition ( http://arxiv.org/abs/2201.12885v1 )

ライセンス: Link先を確認
Michael Cox, Zahiduddin Mohammad, Sravya Kondrakunta, Ventaksamapth Raja Gogineni, Dustin Dannenhauer and Othalia Larue(参考訳) 計算メタ認知(Computational metacognition)は、人間のメタ認知や人工知能のメタレゾン化アプローチからアイデアを活用しようとする、統合された人工知能システムにおける高次推論の認知システム観を表す。 重要な特徴は、知的システムにおける認知活動の痕跡を宣言的に表現し、監視することで、認知自体のパフォーマンスを管理することである。 認知力の向上は行動改善とパフォーマンス向上につながる。 MIDCAと呼ばれる認知アーキテクチャのエージェント実装を用いてこれらの概念を説明し、問題解決におけるメタ認知の価値を示す。 その結果,メタレベルの目標操作や学習を通じて認識を変化させることで,計算メタ認知がパフォーマンスを向上することを示す。

Computational metacognition represents a cognitive systems perspective on high-order reasoning in integrated artificial systems that seeks to leverage ideas from human metacognition and from metareasoning approaches in artificial intelligence. The key characteristic is to declaratively represent and then monitor traces of cognitive activity in an intelligent system in order to manage the performance of cognition itself. Improvements in cognition then lead to improvements in behavior and thus performance. We illustrate these concepts with an agent implementation in a cognitive architecture called MIDCA and show the value of metacognition in problem-solving. The results illustrate how computational metacognition improves performance by changing cognition through meta-level goal operations and learning.
翻訳日:2022-02-01 16:23:46 公開日:2022-01-30
# なぜ富裕層は豊かになるのか? ランダム分割モデルのバランス性について

Why the Rich Get Richer? On the Balancedness of Random Partition Models ( http://arxiv.org/abs/2201.12697v1 )

ライセンス: Link先を確認
Changwoo J. Lee, Huiyan Sang(参考訳) ランダム分割モデルは、混合モデル、トピックモデル、コミュニティ検出問題といった様々なクラスタリングタスクのためにベイズ法で広く使われている。 ランダム分割モデルによって誘導されるクラスタの数は広く研究されているが、クラスタサイズのバランス性に関する別の重要なモデル特性は無視されている。 本研究では,交換可能なランダムパーティションモデルのバランス性を定義し,理論的に研究する枠組みを定式化し,モデルのバランス性の異なるパーティションへの確率の割り当て方法を分析する。 既存の一般的なランダム分割モデルの「リッチ・ゲット・リッチ」特性は、積-形式交換可能性と射影性という2つの一般的な仮定の必然的な結果である。 我々は、ランダムパーティションモデルのバランス性を比較するための原則的な方法を提案し、モデルがどのように機能するか、異なるアプリケーションで何がうまくいかないのかをよりよく理解する。 また、"rich-get-poorer" ;ランダム分割モデルを導入し、エンティティ解決タスクへの応用について説明する。

Random partition models are widely used in Bayesian methods for various clustering tasks, such as mixture models, topic models, and community detection problems. While the number of clusters induced by random partition models has been studied extensively, another important model property regarding the balancedness of cluster sizes has been largely neglected. We formulate a framework to define and theoretically study the balancedness of exchangeable random partition models, by analyzing how a model assigns probabilities to partitions with different levels of balancedness. We demonstrate that the "rich-get-richer" ; characteristic of many existing popular random partition models is an inevitable consequence of two common assumptions: product-form exchangeability and projectivity. We propose a principled way to compare the balancedness of random partition models, which gives a better understanding of what model works better and what doesn't for different applications. We also introduce the "rich-get-poorer" ; random partition models and illustrate their application to entity resolution tasks.
翻訳日:2022-02-01 16:17:28 公開日:2022-01-30
# 分類器のアンサンブルにおけるエンジニアのメタ多様性に対する代理モデルによる新規性探索の強化

Augmenting Novelty Search with a Surrogate Model to Engineer Meta-Diversity in Ensembles of Classifiers ( http://arxiv.org/abs/2201.12896v1 )

ライセンス: Link先を確認
Rui P. Cardoso, Emma Hart, David Burth Kurka and Jeremy V. Pitt(参考訳) 行動多様性を促進するために神経進化とノベルティ検索を組み合わせることで、分類のための高性能なアンサンブルを構築することができる。 しかし、勾配降下を用いて探索中に進化したアーキテクチャを訓練することは計算的に禁止される。 本稿では,2つのニューラルネットワークアーキテクチャ間の動作距離を推定し,ノベルティサーチのスパース項を計算することで,この制限を克服する手法を提案する。 我々は、コンピュータビジョン(CIFAR-10、CIFAR-100、SVHN)の3つのベンチマークデータセットに対して、以前の研究よりも10倍のスピードアップを示し、以前の報告結果を大幅に改善した。 この結果はサーロゲートを用いて拡張されたアーキテクチャ探索空間から得られる。 提案手法は, 学習アルゴリズムの水平スケーリングを実現するためのパラダイムとして, 同じ資源に対して, 多様性の明示的な探索をかなり容易に行えるようにすることで実現されている。

Using Neuroevolution combined with Novelty Search to promote behavioural diversity is capable of constructing high-performing ensembles for classification. However, using gradient descent to train evolved architectures during the search can be computationally prohibitive. Here we propose a method to overcome this limitation by using a surrogate model which estimates the behavioural distance between two neural network architectures required to calculate the sparseness term in Novelty Search. We demonstrate a speedup of 10 times over previous work and significantly improve on previous reported results on three benchmark datasets from Computer Vision -- CIFAR-10, CIFAR-100, and SVHN. This results from the expanded architecture search space facilitated by using a surrogate. Our method represents an improved paradigm for implementing horizontal scaling of learning algorithms by making an explicit search for diversity considerably more tractable for the same bounded resources.
翻訳日:2022-02-01 16:12:13 公開日:2022-01-30
# 暗号通貨の評価 - 説明可能なAIアプローチ

Cryptocurrency Valuation: An Explainable AI Approach ( http://arxiv.org/abs/2201.12893v1 )

ライセンス: Link先を確認
Yulin Liu and Luyao Zhang(参考訳) 現在、暗号通貨資産の基礎に関する説得力のあるプロキシは存在しない。 本稿では、独自のブロックチェーン会計手法を用いて、新しい市場間投資比率(PU比)を提案する。 その後、Bitcoinの履歴データによって、さまざまな基本的な市場比をプロキシし、短期的なbitcoinリターンの予測力はほとんどない。 しかし、pu比率は長期bitcoinリターンを効果的に予測する。 教師なしおよび教師なし機械学習によるpu比評価を検証する。 この評価方法は投資リターンを知らせ、強気相場を効果的に予測する。 最後に、PU比によって推奨される自動取引戦略を提示する。 今後の研究のために,Python Package Index経由でオープンソースソフトウェアとしてトレーディングアルゴリズムを配布する。

Currently, there are no convincing proxies for the fundamentals of cryptocurrency assets. We propose a new market-to-fundamenta l ratio, the price-to-utility (PU) ratio, utilizing unique blockchain accounting methods. We then proxy various fundamental-to-marke t ratios by Bitcoin historical data and find they have little predictive power for short-term bitcoin returns. However, PU ratio effectively predicts long-term bitcoin returns. We verify PU ratio valuation by unsupervised and supervised machine learning. The valuation method informs investment returns and predicts bull markets effectively. Finally, we present an automated trading strategy advised by the PU ratio that outperforms the conventional buy-and-hold and market-timing strategies. We distribute the trading algorithms as open-source software via Python Package Index for future research.
翻訳日:2022-02-01 16:11:58 公開日:2022-01-30
# コンテクスト・バンディットに対する協調攻撃:基本限界と防御機構

Coordinated Attacks against Contextual Bandits: Fundamental Limits and Defense Mechanisms ( http://arxiv.org/abs/2201.12700v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor(参考訳) オンラインレコメンデーションシステムによってモチベーションされた本研究では,タスク(ユーザ)の小さな分数$\alpha < 1/2$が任意かつ敵対的である場合に,マルチタスクのコンテキスト的包帯における最適ポリシーを見つける問題を提案する。 残りの一部の良いユーザーは、$s$コンテキストと$a$アクション(items)で同じコンテキストのバンディットのインスタンスを共有している。 当然、ユーザーが良いか敵であるかは事前にはわからない。 目標は、優れたユーザに対する報酬を可能な限り少ないユーザインタラクションで最大化するポリシーを、しっかりと学習することだ。 対戦相手がいなければ, 協調フィルタリングの結果から, ユーザごとのO(1/\epsilon^2)$のインタラクションは, ユーザ間で情報を共有できるため, 適切なポリシを学習するのに十分であることがわかった。 超ポリノミカルなユーザ数でない限り、良いユーザに対して$\epsilon$-Optimal Policyを学ぶために、$\tilde{\Omega}(\min(S,A) \cdot \alpha^2 / \epsilon^2)$ {\it per-user}インタラクションの低い境界を示す。 次に、単変数および高次元の確率変数に対して効率的なロバスト平均推定器を用いることで、$\tilde{O}(\min(S,A)\cdot \alpha/\epsilon^2)$上界を達成できることを示す。 また、コンテキストの分布に応じて改善できることも示している。

Motivated by online recommendation systems, we propose the problem of finding the optimal policy in multitask contextual bandits when a small fraction $\alpha < 1/2$ of tasks (users) are arbitrary and adversarial. The remaining fraction of good users share the same instance of contextual bandits with $S$ contexts and $A$ actions (items). Naturally, whether a user is good or adversarial is not known in advance. The goal is to robustly learn the policy that maximizes rewards for good users with as few user interactions as possible. Without adversarial users, established results in collaborative filtering show that $O(1/\epsilon^2)$ per-user interactions suffice to learn a good policy, precisely because information can be shared across users. This parallelization gain is fundamentally altered by the presence of adversarial users: unless there are super-polynomial number of users, we show a lower bound of $\tilde{\Omega}(\min(S,A) \cdot \alpha^2 / \epsilon^2)$ {\it per-user} interactions to learn an $\epsilon$-optimal policy for the good users. We then show we can achieve an $\tilde{O}(\min(S,A)\cdot \alpha/\epsilon^2)$ upper-bound, by employing efficient robust mean estimators for both uni-variate and high-dimensional random variables. We also show that this can be improved depending on the distributions of contexts.
翻訳日:2022-02-01 16:11:47 公開日:2022-01-30
# Sparse Centroid-Encoder: 特徴選択のための非線形モデル

Sparse Centroid-Encoder: A Nonlinear Model for Feature Selection ( http://arxiv.org/abs/2201.12910v1 )

ライセンス: Link先を確認
Tomojit Ghosh and Michael Kirby(参考訳) 2つ以上のクラスを識別する特徴の合計集合を決定するための疎最適化問題を開発した。 これは、Sparse Centroid-Encoder (SCE)と呼ばれる非線形データ削減と可視化のためのCentroid-Encoderのスパース実装である。 また、各特徴をその発生によってランク付けする特徴選択フレームワークも提供し、検証セットを用いて最適な特徴数を選択する。 このアルゴリズムは、単細胞生物データ、高次元感染症データ、ハイパースペクトルデータ、画像データ、音声データを含む幅広いデータセットに適用される。 提案手法を,2つのニューラルネットワークベースモデル(DFS,LassoNet),スパースSVM,ランダムフォレストなど,最先端の機能選択手法と比較した。 実験により,SCE の機能は未確認の試験データに対して,少ない特徴でより正確な分類精度が得られた。

We develop a sparse optimization problem for the determination of the total set of features that discriminate two or more classes. This is a sparse implementation of the centroid-encoder for nonlinear data reduction and visualization called Sparse Centroid-Encoder (SCE). We also provide a feature selection framework that first ranks each feature by its occurrence, and the optimal number of features is chosen using a validation set. The algorithm is applied to a wide variety of data sets including, single-cell biological data, high dimensional infectious disease data, hyperspectral data, image data, and speech data. We compared our method to various state-of-the-art feature selection techniques, including two neural network-based models (DFS, and LassoNet), Sparse SVM, and Random Forest. We empirically showed that SCE features produced better classification accuracy on the unseen test data, often with fewer features.
翻訳日:2022-02-01 15:41:04 公開日:2022-01-30
# AutoSNN: エネルギー効率の良いスパイクニューラルネットワークを目指して

AutoSNN: Towards Energy-Efficient Spiking Neural Networks ( http://arxiv.org/abs/2201.12738v1 )

ライセンス: Link先を確認
Byunggook Na, Jisoo Mok, Seongsik Park, Dongjin Lee, Hyeokjun Choe, Sungroh Yoon(参考訳) 脳内の情報伝達を模倣するスパイクニューラルネットワーク(SNN)は、離散スパイクとスパーススパイクを通じて時空間情報をエネルギー効率よく処理し、かなりの注目を集める。 SNNの精度とエネルギー効率を改善するため、これまでのほとんどの研究はトレーニング手法のみに焦点を合わせており、アーキテクチャの効果はめったに研究されていない。 これまでの研究では,スパイクの精度と数の観点から設計選択について検討し,それらがSNNに最適でないことを明らかにする。 本稿では,SNNが生成するスパイクの精度向上と低減を図るため,AutoSNNと呼ばれるスパイク対応ニューラルネットワーク検索フレームワークを提案する。 望ましくない設計選択を伴わないアーキテクチャからなる検索空間を定義する。 スパイク対応アーキテクチャサーチを実現するために,スパイクの精度と回数を考慮したフィットネスを導入する。 AutoSNNは、手作りのSNNを精度とエネルギー効率で上回るSNNアーキテクチャの検索に成功した。 ニューロモルフィックデータセットを含む各種データセットに対するAutoSNNの有効性を徹底的に示す。

Spiking neural networks (SNNs) that mimic information transmission in the brain can energy-efficiently process spatio-temporal information through discrete and sparse spikes, thereby receiving considerable attention. To improve accuracy and energy efficiency of SNNs, most previous studies have focused solely on training methods, and the effect of architecture has rarely been studied. We investigate the design choices used in the previous studies in terms of the accuracy and number of spikes and figure out that they are not best-suited for SNNs. To further improve the accuracy and reduce the spikes generated by SNNs, we propose a spike-aware neural architecture search framework called AutoSNN. We define a search space consisting of architectures without undesirable design choices. To enable the spike-aware architecture search, we introduce a fitness that considers both the accuracy and number of spikes. AutoSNN successfully searches for SNN architectures that outperform hand-crafted SNNs in accuracy and energy efficiency. We thoroughly demonstrate the effectiveness of AutoSNN on various datasets including neuromorphic datasets.
翻訳日:2022-02-01 15:36:18 公開日:2022-01-30
# きめ細かい文脈知識選択によるエンドツーエンド音声認識の改善

Improving End-to-End Contextual Speech Recognition with Fine-grained Contextual Knowledge Selection ( http://arxiv.org/abs/2201.12806v1 )

ライセンス: Link先を確認
Minglun Han, Linhao Dong, Zhenlin Liang, Meng Cai, Shiyu Zhou, Zejun Ma, Bo Xu(参考訳) 今日、エンド・ツー・エンドの文脈認識におけるほとんどの方法は、文脈知識に対する認識プロセスをバイアスしている。 all-neural context biasing methodはフレーズレベルのコンテキストモデリングと注意に基づく関連モデリングに依存しているため、類似したコンテキスト固有のフレーズ間の混乱に遭遇する可能性があり、トークンレベルでの予測を損なう。 本研究では,細粒度文脈知識選択(finecos)による混乱問題の軽減に焦点をあてる。 FineCoSでは,トークン予測の不確実性を低減するために,きめ細かい知識を導入する。 具体的には,まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。 さらに,多くの関連する句の注意重みを推論において再正規化し,より焦点を絞った句レベルの文脈表現を得るとともに,句やトークンをより識別するために位置情報を注入する。 librispeechと社内の160,000時間データセットについて,制御可能な全神経バイアス法であるcollaborative decoding(coldec)に基づいて提案手法を検討する。 提案手法は、少なくとも6.1%の単語誤り率をLibriSpeechで削減し、16.4%の文字誤り率をColDec上の社内データセットで削減する。

Nowadays, most methods in end-to-end contextual speech recognition bias the recognition process towards contextual knowledge. Since all-neural contextual biasing methods rely on phrase-level contextual modeling and attention-based relevance modeling, they may encounter confusion between similar context-specific phrases, which hurts predictions at the token level. In this work, we focus on mitigating confusion problems with fine-grained contextual knowledge selection (FineCoS). In FineCoS, we introduce fine-grained knowledge to reduce the uncertainty of token predictions. Specifically, we first apply phrase selection to narrow the range of phrase candidates, and then conduct token attention on the tokens in the selected phrase candidates. Moreover, we re-normalize the attention weights of most relevant phrases in inference to obtain more focused phrase-level contextual representations, and inject position information to better discriminate phrases or tokens. On LibriSpeech and an in-house 160,000-hour dataset, we explore the proposed methods based on a controllable all-neural biasing method, collaborative decoding (ColDec). The proposed methods provide at most 6.1% relative word error rate reduction on LibriSpeech and 16.4% relative character error rate reduction on the in-house dataset over ColDec.
翻訳日:2022-02-01 15:19:27 公開日:2022-01-30
# DearFSAC: 深層強化学習による信頼できないフェデレーション学習の最適化

DearFSAC: An Approach to Optimizing Unreliable Federated Learning via Deep Reinforcement Learning ( http://arxiv.org/abs/2201.12701v1 )

ライセンス: Link先を確認
Chenghao Huang, Weilong Chen, Yuxi Chen, Shunji Yang and Yanru Zhang(参考訳) フェデレーション学習(fl)では,モデル集約がデータのプライバシに広く採用されている。 近年、局所的なデータセットの違いによるFL性能劣化を軽減するために、局所的なモデルに異なる重みを割り当てている。 しかし、様々な欠陥がFLプロセスの信頼性を損なうと、既存のFLアプローチのほとんどは弱い堅牢性を示す。 本稿では,局所モデルに動的に重みを割り当て,flのロバスト性を向上させるための欠陥認識型フェデレートソフトアクタ-クリティック(dearfsac)を提案する。 深部強化学習アルゴリズムは, ほぼ最適性能と安定収束性に, ソフトアクター・クリティックを採用している。 さらに、オートエンコーダを用いて低次元埋め込みベクトルを出力し、モデル品質を評価する。 実験では、DearFSACは、障害シナリオ下で、独立および同一分散(IID)および非IID設定の4つのデータセットに対して、既存の3つのアプローチより優れている。

In federated learning (FL), model aggregation has been widely adopted for data privacy. In recent years, assigning different weights to local models has been used to alleviate the FL performance degradation caused by differences between local datasets. However, when various defects make the FL process unreliable, most existing FL approaches expose weak robustness. In this paper, we propose the DEfect-AwaRe federated soft actor-critic (DearFSAC) to dynamically assign weights to local models to improve the robustness of FL. The deep reinforcement learning algorithm soft actor-critic is adopted for near-optimal performance and stable convergence. Besides, an auto-encoder is trained to output low-dimensional embedding vectors that are further utilized to evaluate model quality. In the experiments, DearFSAC outperforms three existing approaches on four datasets for both independent and identically distributed (IID) and non-IID settings under defective scenarios.
翻訳日:2022-02-01 15:16:19 公開日:2022-01-30
# 連帯強化学習のためのコミュニケーション効率の高いコンセンサス機構

Communication-Effici ent Consensus Mechanism for Federated Reinforcement Learning ( http://arxiv.org/abs/2201.12718v1 )

ライセンス: Link先を確認
Xing Xu and Rongpeng Li and Zhifeng Zhao and Honggang Zhang(参考訳) 本稿では,統合学習(fl)のパラダイムにおいて,マルチエージェント意思決定プロセスのための独立強化学習(irl)について考察する。 FLは、トレーニング効率と安定性の観点から、IRLのポリシー性能を向上できることを示す。 しかしながら、ポリシーパラメータはローカルでトレーニングされ、flの中央サーバを介して反復的に集約されるため、頻繁な情報交換は大量の通信オーバーヘッドを伴います。 本稿では,モデルの収束性能の向上と必要な通信量と計算オーバーヘッドの低減のバランスを両立するために,システムユーティリティ関数を提案し,モデルの局所勾配の交換にコンセンサスアルゴリズムをflに導入する周期平均化法の上にコンセンサスに基づく最適化手法を開発した。 本稿では,提案手法の新たな収束保証も提供し,理論解析と数値シミュレーションによるシステムの実用性向上に優れた効果と効率性を示す。

The paper considers independent reinforcement learning (IRL) for multi-agent decision-making process in the paradigm of federated learning (FL). We show that FL can clearly improve the policy performance of IRL in terms of training efficiency and stability. However, since the policy parameters are trained locally and aggregated iteratively through a central server in FL, frequent information exchange incurs a large amount of communication overheads. To reach a good balance between improving the model's convergence performance and reducing the required communication and computation overheads, this paper proposes a system utility function and develops a consensus-based optimization scheme on top of the periodic averaging method, which introduces the consensus algorithm into FL for the exchange of a model's local gradients. This paper also provides novel convergence guarantees for the developed method, and demonstrates its superior effectiveness and efficiency in improving the system utility value through theoretical analyses and numerical simulation results.
翻訳日:2022-02-01 15:16:00 公開日:2022-01-30
# Transformerを用いたグラフ表現学習のためのグラフ自己認識

Graph Self-Attention for learning graph representation with Transformer ( http://arxiv.org/abs/2201.12787v1 )

ライセンス: Link先を確認
Wonpyo Park, Woonggi Chang, Donggeon Lee, Juntae Kim(参考訳) トランスフォーマーモデルがグラフ表現を学習できるようにする新しいグラフ自己アテンションモジュールを提案する。 グラフ情報,注意マップ,トランスフォーマーの隠れ表現を組み込むことを目標としている。 そこで本研究では,問合せ,キー,グラフ情報の相互作用を考慮した文脈対応注意を提案する。 さらに,グラフ情報を隠れた表現にエンコードするために,グラフ埋め込み値を提案する。 本研究では,Transformer アーキテクチャ上でのグラフ表現の符号化に成功していることを示す。 最後に,画像のグラフ分類や量子化学のグラフ回帰のための分子など,グラフ表現学習の複数のベンチマークにおいて,最先端のパフォーマンスを実現する。

We propose a novel Graph Self-Attention module to enable Transformer models to learn graph representation. We aim to incorporate graph information, on the attention map and hidden representations of Transformer. To this end, we propose context-aware attention which considers the interactions between query, key and graph information. Moreover, we propose graph-embedded value to encode the graph information on the hidden representation. Our extensive experiments and ablation studies validate that our method successfully encodes graph representation on Transformer architecture. Finally, our method achieves state-of-the-art performance on multiple benchmarks of graph representation learning, such as graph classification on images and molecules to graph regression on quantum chemistry.
翻訳日:2022-02-01 15:15:45 公開日:2022-01-30
# N-HiTS:時系列予測のためのニューラルネットワーク階層補間

N-HiTS: Neural Hierarchical Interpolation for Time Series Forecasting ( http://arxiv.org/abs/2201.12886v1 )

ライセンス: Link先を確認
Cristian Challu, Kin G. Olivares, Boris N. Oreshkin, Federico Garza, Max Mergenthaler, Artur Dubrawski(参考訳) ニューラル予測の最近の進歩は、大規模予測システムの性能改善を加速した。 しかし、ロングホリゾン予測は非常に難しい課題である。 ロングホリゾン予測に苦しむ2つの一般的な課題は、予測のボラティリティと計算複雑性である。 本稿では,新しい階層的補間法とマルチレートデータサンプリング技術を取り入れたN-HiTSを提案する。 これらの手法により,入力信号を分解し,予測を合成しながら,周波数やスケールの異なる成分を選択的に強調し,予測を逐次的に組み立てることができる。 我々は、N-HiTSの利点を、最先端のロングホライゾン予測法に対して実証的に評価する。 提案手法は,多変量予測タスクの配列に基づいて,最新のTransformerアーキテクチャよりも25%の精度向上を実現し,計算時間を桁違いに削減する。 私たちのコードは \href{https://github.com/c challu/n-hits}{this リポジトリで利用可能です。

Recent progress in neural forecasting accelerated improvements in the performance of large-scale forecasting systems. Yet, long-horizon forecasting remains a very difficult task. Two common challenges afflicting long-horizon forecasting are the volatility of the predictions and their computational complexity. In this paper, we introduce N-HiTS, a model which addresses both challenges by incorporating novel hierarchical interpolation and multi-rate data sampling techniques. These techniques enable the proposed method to assemble its predictions sequentially, selectively emphasizing components with different frequencies and scales, while decomposing the input signal and synthesizing the forecast. We conduct an extensive empirical evaluation demonstrating the advantages of N-HiTS over the state-of-the-art long-horizon forecasting methods. On an array of multivariate forecasting tasks, the proposed method provides an average accuracy improvement of 25% over the latest Transformer architectures while reducing the computation time by an order of magnitude. Our code is available at \href{https://github.com/c challu/n-hits}{this repository}.
翻訳日:2022-02-01 15:15:36 公開日:2022-01-30
# 無限幅確率ニューラルネットワークは決定論的である

Stochastic Neural Networks with Infinite Width are Deterministic ( http://arxiv.org/abs/2201.12724v1 )

ライセンス: Link先を確認
Liu Ziyin, Hanlin Zhang, Xiangming Meng, Yuting Lu, Eric Xing, Masahito Ueda(参考訳) この研究は、使用中の主要なタイプのニューラルネットワークである確率ニューラルネットワークを理論的に研究する。 具体的には、最適化確率的ニューラルネットワークの幅が無限大になる傾向があるため、トレーニングセットにおける予測的分散はゼロに減少することを示す。 我々の理論が当てはまる一般的な例は、ドロップアウトと変分オートエンコーダを持つニューラルネットワークである。 この結果は、ニューラルネットワークの学習に確率性がどのように影響するかをより深く理解し、実用的な問題に対するより良いアーキテクチャを設計するのに役立つ。

This work theoretically studies stochastic neural networks, a main type of neural network in use. Specifically, we prove that as the width of an optimized stochastic neural network tends to infinity, its predictive variance on the training set decreases to zero. Two common examples that our theory applies to are neural networks with dropout and variational autoencoders. Our result helps better understand how stochasticity affects the learning of neural networks and thus design better architectures for practical problems.
翻訳日:2022-02-01 15:12:55 公開日:2022-01-30
# 時変ゼロサムゲームにおける非回帰学習

No-Regret Learning in Time-Varying Zero-Sum Games ( http://arxiv.org/abs/2201.12736v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Peng Zhao, Haipeng Luo, Zhi-Hua Zhou(参考訳) 固定2プレイヤーゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。 ゲームペイオフ行列が時間とともに変化し、おそらく逆向きに変化するこの問題の変種を考える。 まず,この問題に対するアルゴリズム設計を導くための3つの性能指標を提案する。 1) 気の利いた個々人の後悔 2)双対性ギャップの拡張,及び 3) ダイナミックナッシュ平衡後悔と呼ばれる新しい尺度は,プレイヤーのペイオフとミニマックスゲーム値の累積差を定量化する。 次に,これら3つの性能尺度すべてにおいて,良好な保証を同時に享受する単一パラメータフリーアルゴリズムを開発した。 これらの保証は、ペイオフ行列の異なる非定常測度に適応し、さらに重要なことに、ペイオフ行列が固定されたときに最もよく知られた結果を回復する。 本アルゴリズムは,特定の特性を満足するブラックボックスベースリーナー群上でメタアルゴリズム学習を行う2層構造と,時間変動ゲーム用に特別に設計されたいくつかの新規成分を基本とする。 実験結果は,我々のアルゴリズムの有効性をさらに検証する。

Learning from repeated play in a fixed two-player zero-sum game is a classic problem in game theory and online learning. We consider a variant of this problem where the game payoff matrix changes over time, possibly in an adversarial manner. We first present three performance measures to guide the algorithmic design for this problem: 1) the well-studied individual regret, 2) an extension of duality gap, and 3) a new measure called dynamic Nash Equilibrium regret, which quantifies the cumulative difference between the player's payoff and the minimax game value. Next, we develop a single parameter-free algorithm that simultaneously enjoys favorable guarantees under all these three performance measures. These guarantees are adaptive to different non-stationarity measures of the payoff matrices and, importantly, recover the best known results when the payoff matrix is fixed. Our algorithm is based on a two-layer structure with a meta-algorithm learning over a group of black-box base-learners satisfying a certain property, along with several novel ingredients specifically designed for the time-varying game setting. Empirical results further validate the effectiveness of our algorithm.
翻訳日:2022-02-01 15:12:47 公開日:2022-01-30
# ReLUネットワークにおけるランク最小化に向けた暗黙の正規化

Implicit Regularization Towards Rank Minimization in ReLU Networks ( http://arxiv.org/abs/2201.12760v1 )

ライセンス: Link先を確認
Nadav Timor, Gal Vardi, Ohad Shamir(参考訳) ニューラルネットワークにおける暗黙の正規化と勾配に基づく手法による学習,およびそれらの重み行列のランク最小化の関係について検討した。 従来、線形ネットワーク(深さ2とベクトル値出力)では、勾配流(GF)がランク最小化ヒューリスティックとして機能することが証明された。 しかし、これがいかに非線形ネットワークに一般化するかを理解することは、オープンな問題である。 本稿では,非線形ReLUネットワークに着目し,いくつかの新たな正および負の結果を提供する。 負の面では、線形の場合とは異なり、reluネットワーク上のgfは、かなり強い意味で(サイズ2の「ほぼ」データセットの場合であっても)ランクを最小にしがちである(実証的に証明する)。 正の面では、十分な深さのReLUネットワークがいくつかの合理的な設定で低ランクの解に確実に偏りがあることを明らかにする。

We study the conjectured relationship between the implicit regularization in neural networks, trained with gradient-based methods, and rank minimization of their weight matrices. Previously, it was proved that for linear networks (of depth 2 and vector-valued outputs), gradient flow (GF) w.r.t. the square loss acts as a rank minimization heuristic. However, understanding to what extent this generalizes to nonlinear networks is an open problem. In this paper, we focus on nonlinear ReLU networks, providing several new positive and negative results. On the negative side, we prove (and demonstrate empirically) that, unlike the linear case, GF on ReLU networks may no longer tend to minimize ranks, in a rather strong sense (even approximately, for "most" datasets of size 2). On the positive side, we reveal that ReLU networks of sufficient depth are provably biased towards low-rank solutions in several reasonable settings.
翻訳日:2022-02-01 15:12:28 公開日:2022-01-30
# 分子生成のための双曲型ニューラルネットワーク

Hyperbolic Neural Networks for Molecular Generation ( http://arxiv.org/abs/2201.12825v1 )

ライセンス: Link先を確認
Eric Qu, Dongmian Zou(参考訳) 近年のディープラーニングの進歩により、ニューラルネットワークは分子生成のタスクに広く利用されている。 多くの深層発生器は分子グラフから原子関係を抽出し、原子レベルと分子レベルの階層情報を無視する。 そこで,このような階層情報を抽出するために,新しい双曲生成モデルを提案する。 第1に、潜在性双曲空間に分子の階層情報を埋め込む完全双曲型ジャンクション・ツリー・エンコーダ・デコーダ、第2に潜在性埋め込みを生成する潜在性生成逆ネットワーク、第3に第1部分からデコーダを継承する分子発生器、第2部分から潜在性発生器である。 MOSESベンチマークプラットフォームを用いてZINCデータセット上でモデルを評価し、特に構造的類似性に関する指標において、競合的な結果を得る。

With the recent advance of deep learning, neural networks have been extensively used for the task of molecular generation. Many deep generators extract atomic relations from molecular graphs and ignore hierarchical information at both atom and molecule levels. In order to extract such hierarchical information, we propose a novel hyperbolic generative model. Our model contains three parts: first, a fully hyperbolic junction-tree encoder-decoder that embeds the hierarchical information of the molecules in the latent hyperbolic space; second, a latent generative adversarial network for generating the latent embeddings; third, a molecular generator that inherits the decoders from the first part and the latent generator from the second part. We evaluate our model on the ZINC dataset using the MOSES benchmarking platform and achieve competitive results, especially in metrics about structural similarity.
翻訳日:2022-02-01 15:12:10 公開日:2022-01-30
# 特異候補数回の評価によるガウス過程の最適化

Scaling Gaussian Process Optimization by Evaluating a Few Unique Candidates Multiple Times ( http://arxiv.org/abs/2201.12909v1 )

ライセンス: Link先を確認
Daniele Calandriello, Luigi Carratino, Alessandro Lazaric, Michal Valko, Lorenzo Rosasco(参考訳) ガウス過程 (GP) の後方の計算は、歴史的点の数で計算コストが3倍になる。 同じgp後段の改革は、この複雑さが主に、いかに多くの\emph{unique} 歴史点が考慮されているかに依存することを強調する。 これは、履歴点の集合を学習者が逐次構築するアクティブな学習環境において重要な意味を持つ。 gps(gp-opt)に基づく逐次ブラックボックス最適化は,複数の評価ステップの候補ソリューションに固執して,必要に応じてのみ切り替えることによって,効率的であることを示す。 スイッチ数を制限することで、gpの歴史におけるユニークなポイントの数も制限される。 これにより、GP-Optアルゴリズムの実行に必要な後部を正確にかつ安価に計算することができる。 このアプローチは特に、スイッチコストの高いGP-Optの実際の応用(例えば、ウェットラボでの化学物質の交換、ハイパーパラメータ最適化におけるデータ/モデルローディング)に有用である。 このメタアプローチの例として,GP-UCB と GP-EI の2つのよく確立されたGP-Opt アルゴリズムを改良し,GP-Opt からの適応規則をできるだけ頻繁に変更する。 これらのバージョンは、実行時、メモリの複雑さ、候補をバッチ化し、並列的に評価する能力といったアルゴリズムの実際的な側面を改善しながら、理論上のno-regret保証をすべて保持している。

Computing a Gaussian process (GP) posterior has a computational cost cubical in the number of historical points. A reformulation of the same GP posterior highlights that this complexity mainly depends on how many \emph{unique} historical points are considered. This can have important implication in active learning settings, where the set of historical points is constructed sequentially by the learner. We show that sequential black-box optimization based on GPs (GP-Opt) can be made efficient by sticking to a candidate solution for multiple evaluation steps and switch only when necessary. Limiting the number of switches also limits the number of unique points in the history of the GP. Thus, the efficient GP reformulation can be used to exactly and cheaply compute the posteriors required to run the GP-Opt algorithms. This approach is especially useful in real-world applications of GP-Opt with high switch costs (e.g. switching chemicals in wet labs, data/model loading in hyperparameter optimization). As examples of this meta-approach, we modify two well-established GP-Opt algorithms, GP-UCB and GP-EI, to switch candidates as infrequently as possible adapting rules from batched GP-Opt. These versions preserve all the theoretical no-regret guarantees while improving practical aspects of the algorithms such as runtime, memory complexity, and the ability of batching candidates and evaluating them in parallel.
翻訳日:2022-02-01 15:10:08 公開日:2022-01-30
# invariant-feature subspace recovery による証明可能領域の一般化

Provable Domain Generalization via Invariant-Feature Subspace Recovery ( http://arxiv.org/abs/2201.12919v1 )

ライセンス: Link先を確認
Haoxiang Wang, Haozhe Si, Bo Li, Han Zhao(参考訳) ドメインの一般化は、未知のテスト環境でうまく機能するように訓練されたモデルを求めます。 近年、領域一般化のために不変リスク最小化(IRM)のような一連のアルゴリズムが提案されている。 しかし、Rosenfeld et al. (2021) は、単純な線形データモデルにおいて、非凸性問題が無視されたとしても、IRM とその拡張は、$d_s+1$ のトレーニング環境では、$d_s$ はスプリアス部分空間の次元である。 本稿では,Invariant-Feature Subspace Recovery (ISR) を用いた領域一般化を提案する。 最初のアルゴリズムである ISR-Mean は,クラス条件分布の1次モーメントから不変な特徴によって区切られた部分空間を同定し,ローゼンフェルドらのデータモデルの下で,$d_s+1$のトレーニング環境を用いて証明可能な領域一般化を実現する(2021)。 第2のアルゴリズムであるISR-Covは、2次モーメントの情報を用いて、必要なトレーニング環境を$O(1)$に削減する。 特に、ITMとは異なり、我々のアルゴリズムは非凸性問題をバイパスし、グローバル収束保証を享受する。 経験的に、我々のISRは、人工ベンチマークのIRMと比較して優れた性能を得ることができる。 さらに、実世界の3つの画像とテキストデータセットにおいて、ISR-Meanは、スプリアス相関やグループシフトに対するトレーニングモデルの最悪の精度を高めるために、単純で効果的な後処理方法として使用できることを示す。

Domain generalization asks for models trained on a set of training environments to perform well on unseen test environments. Recently, a series of algorithms such as Invariant Risk Minimization (IRM) has been proposed for domain generalization. However, Rosenfeld et al. (2021) shows that in a simple linear data model, even if non-convexity issues are ignored, IRM and its extensions cannot generalize to unseen environments with less than $d_s+1$ training environments, where $d_s$ is the dimension of the spurious-feature subspace. In this paper, we propose to achieve domain generalization with Invariant-feature Subspace Recovery (ISR). Our first algorithm, ISR-Mean, can identify the subspace spanned by invariant features from the first-order moments of the class-conditional distributions, and achieve provable domain generalization with $d_s+1$ training environments under the data model of Rosenfeld et al. (2021). Our second algorithm, ISR-Cov, further reduces the required number of training environments to $O(1)$ using the information of second-order moments. Notably, unlike IRM, our algorithms bypass non-convexity issues and enjoy global convergence guarantees. Empirically, our ISRs can obtain superior performance compared with IRM on synthetic benchmarks. In addition, on three real-world image and text datasets, we show that ISR-Mean can be used as a simple yet effective post-processing method to increase the worst-case accuracy of trained models against spurious correlations and group shifts.
翻訳日:2022-02-01 15:09:41 公開日:2022-01-30
# 語彙対称性としての組成性

Compositionality as Lexical Symmetry ( http://arxiv.org/abs/2201.12926v1 )

ライセンス: Link先を確認
Ekin Aky\"urek and Jacob Andreas(参考訳) 標準的なディープネットワークモデルは、意味解析、翻訳、質問応答といったタスクで構成的に一般化するために必要な誘導バイアスを欠いている。 自然言語処理における膨大な作業は、文解釈の合成プロセスを実行する新しいモデルアーキテクチャによって、この制限を克服しようとするものである。 本稿では,データ分布の制約として合成性を定式化する合成モデリングのためのドメイン一般フレームワークを提案する。 我々は、辞書と合成関数に分解可能なタスクに対して、トレーニングデータに適用した場合に、新しい良く整形されたサンプルを生成することが保証されるデータ変換関数のファミリーが存在することを証明した。 さらに、合成関数が未知である場合でも、これらのデータ変換を識別できることも示している(例えば、記号文法の書き方や推論方法を知らない場合)。 これらの変換関数を用いて、通常のRNNおよびトランスフォーマーシーケンスモデルのためのデータ拡張を行い、CLEVR-CoGenT視覚質問応答データセットの最先端結果と、COGS意味解析データセットの特殊なモデルアーキテクチャに匹敵する結果を得る。

Standard deep network models lack the inductive biases needed to generalize compositionally in tasks like semantic parsing, translation, and question answering. A large body of work in natural language processing seeks to overcome this limitation with new model architectures that enforce a compositional process of sentence interpretation. In this paper, we present a domain-general framework for compositional modeling that instead formulates compositionality as a constraint on data distributions. We prove that for any task factorizable into a lexicon and a composition function, there exists a family of data transformation functions that are guaranteed to produce new, well-formed examples when applied to training data. We further show that it is possible to identify these data transformations even when the composition function is unknown (e.g. when we do not know how to write or infer a symbolic grammar). Using these transformation functions to perform data augmentation for ordinary RNN and transformer sequence models, we obtain state-of-the-art results on the CLEVR-CoGenT visual question answering dataset, and results comparable to specialized model architectures on the COGS semantic parsing dataset.
翻訳日:2022-02-01 14:42:42 公開日:2022-01-30
# coin++: データ非依存のニューラル圧縮

COIN++: Data Agnostic Neural Compression ( http://arxiv.org/abs/2201.12904v1 )

ライセンス: Link先を確認
Emilien Dupont, Hrushikesh Loya, Milad Alizadeh, Adam Goli\'nski, Yee Whye Teh, Arnaud Doucet(参考訳) ニューラル圧縮アルゴリズムは典型的には、異なるデータモダリティのために特別なエンコーダとデコーダアーキテクチャを必要とするオートエンコーダに基づいている。 本稿では,幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークであるCOIN++を提案する。 我々のアプローチは、データを暗黙のニューラル表現、すなわち座標(ピクセル位置など)を特徴(RGB値など)にマッピングするニューラル関数に変換することに基づいている。 そして、暗黙のニューラルネットワーク表現の重みを直接記憶する代わりに、メタ学習ベースネットワークに適用された変調をデータの圧縮コードとして保存する。 さらに、これらの変調の量子化とエントロピー化を行い、ベースラインに比べて符号化時間を2桁減らしながら大きな圧縮ゲインをもたらす。 画像から医療・気候データまで,様々なデータモダリティを圧縮することにより,本手法の有効性を実証的に実証する。

Neural compression algorithms are typically based on autoencoders that require specialized encoder and decoder architectures for different data modalities. In this paper, we propose COIN++, a neural compression framework that seamlessly handles a wide range of data modalities. Our approach is based on converting data to implicit neural representations, i.e. neural functions that map coordinates (such as pixel locations) to features (such as RGB values). Then, instead of storing the weights of the implicit neural representation directly, we store modulations applied to a meta-learned base network as a compressed code for the data. We further quantize and entropy code these modulations, leading to large compression gains while reducing encoding time by two orders of magnitude compared to baselines. We empirically demonstrate the effectiveness of our method by compressing various data modalities, from images to medical and climate data.
翻訳日:2022-02-01 14:38:35 公開日:2022-01-30
# VC-GPT: 次世代ビジョン・ランゲージ事前学習のための視覚条件付きGPT

VC-GPT: Visual Conditioned GPT for End-to-End Generative Vision-and-Language Pre-training ( http://arxiv.org/abs/2201.12723v1 )

ライセンス: Link先を確認
Ziyang Luo, Yadong Xi, Rongsheng Zhang, Jing Ma(参考訳) vision-and-language pre-training models (vlms)はクロスモーダル領域で大きな成功を収めているが、その多くはプレトレーニングのために数百万の並列画像キャプチャデータを必要とする。 このようなデータの照合は高価で労働集約的です。 本研究では,視覚前訓練モデル(CLIP-ViT)をエンコーダとして,言語前訓練モデル(GPT2)をデコーダとして利用することにより,生成前訓練(G-VLP)の必要性を減らすことに焦点を当てる。 残念ながら、GPT2には、CLIP-ViTとGPT2の直接接続を妨げる、必要なクロスアテンションモジュールがない。 このような欠陥を補うために、モデルを設計し、事前訓練する方法を実証的に調査する広範囲な実験を行った。 実験結果に基づいて,新しいG-VLPフレームワークであるVisual Conditioned GPT (VC-GPT) を提案し,小型並列撮像コーパス(Visual Genome, 110kの異なる画像のみ)で事前学習を行った。 下流タスク(MSCOCOとFlickr30kのキャプション)のイメージキャプションに基づいて、VC-GPTは、事前トレーニング中に約30倍の並列データを消費するすべての評価指標に対して、最高または2番目に高いパフォーマンスを達成する。

Vision-and-language pre-training models (VLMs) have achieved tremendous success in the cross-modal area, but most of them require millions of parallel image-caption data for pre-training. Collating such data is expensive and labor-intensive. In this work, we focus on reducing such need for generative vision-and-language pre-training (G-VLP) by taking advantage of the visual pre-trained model (CLIP-ViT) as encoder and language pre-trained model (GPT2) as decoder. Unfortunately, GPT2 lacks a necessary cross-attention module, which hinders the direct connection of CLIP-ViT and GPT2. To remedy such defects, we conduct extensive experiments to empirically investigate how to design and pre-train our model. Based on our experimental results, we propose a novel G-VLP framework, Visual Conditioned GPT (VC-GPT), and pre-train it with a small-scale parallel image-caption corpus (Visual Genome, only 110k distinct images). Evaluating on the image captioning downstream tasks (MSCOCO and Flickr30k Captioning), VC-GPT achieves either the best or the second-best performance across all evaluation metrics over the previous works which consume around 30 times more parallel data during pre-training.
翻訳日:2022-02-01 14:36:09 公開日:2022-01-30
# MVP-Net: 大規模クラウドの多視点的セマンティックセマンティックセグメンテーション

MVP-Net: Multiple View Pointwise Semantic Segmentation of Large-Scale Point Clouds ( http://arxiv.org/abs/2201.12769v1 )

ライセンス: Link先を確認
Chuanyu Luo, Xiaohan Li, Nuo Cheng, Han Li, Shengguang Lei, Pu Li(参考訳) 3Dポイントクラウドのセマンティックセグメンテーションは、自律運転環境認識に不可欠な課題である。 最もポイントワイズなクラウドセマンティックセグメンテーション手法のパイプラインには、ポイントサンプリング、近隣探索、特徴集約、分類が含まれる。 K-nearest 近傍のアルゴリズム KNN などの近傍探索法が広く応用されている。 しかし、KNNの複雑さは常に効率のボトルネックである。 本稿では,KNNや複雑な前/後処理を使わずに大規模屋外点クラウドを効率よく直接推論する,エンドツーエンドのニューラルネットワークであるMultiple View Pointwise Net,MVP-Netを提案する。 代わりに、ポイント特徴集約と受容場展開のために、仮定に基づくポイントクラウドメソッドのソートとマルチローテーションが導入される。 数値実験により,提案したMVP-Netは,最も効率的なポイントワイドセマンティックセマンティックセマンティック手法であるRandLA-Netの11倍の速度で,大規模ベンチマークのSemanticKITTIデータセットで同じ精度を達成できた。

Semantic segmentation of 3D point cloud is an essential task for autonomous driving environment perception. The pipeline of most pointwise point cloud semantic segmentation methods includes points sampling, neighbor searching, feature aggregation, and classification. Neighbor searching method like K-nearest neighbors algorithm, KNN, has been widely applied. However, the complexity of KNN is always a bottleneck of efficiency. In this paper, we propose an end-to-end neural architecture, Multiple View Pointwise Net, MVP-Net, to efficiently and directly infer large-scale outdoor point cloud without KNN or any complex pre/postprocessing. Instead, assumption-based sorting and multi-rotation of point cloud methods are introduced to point feature aggregation and receptive field expanding. Numerical experiments show that the proposed MVP-Net is 11 times faster than the most efficient pointwise semantic segmentation method RandLA-Net and achieves the same accuracy on the large-scale benchmark SemanticKITTI dataset.
翻訳日:2022-02-01 14:35:39 公開日:2022-01-30
# 実演からの対比学習

Contrastive Learning from Demonstrations ( http://arxiv.org/abs/2201.12813v1 )

ライセンス: Link先を確認
Andr\'e Correia and Lu\'is A. Alexandre(参考訳) 本稿では,複数視点から撮影した未ラベル映像から視覚表現を学習するためのフレームワークを提案する。 これらの表現は、ピックやプレイスなど、いくつかのロボットタスクの模倣に適用できることを示す。 我々は最近提案した自己教師付き学習アルゴリズムを、コントラスト学習を適用して、特徴埋め込みにおける無関係情報を抑えながらタスク関連情報を強化することで最適化する。 提案手法を利用可能なマルチビューポーリングとカスタムピック・アンド・プレイス・データセット上で検証し,TCN三重項ベースラインと比較する。 我々は,視点アライメント,ステージ分類,強化学習という3つの指標を用いて学習表現を評価し,すべての場合において,最先端のアプローチと比較して結果が向上する。

This paper presents a framework for learning visual representations from unlabeled video demonstrations captured from multiple viewpoints. We show that these representations are applicable for imitating several robotic tasks, including pick and place. We optimize a recently proposed self-supervised learning algorithm by applying contrastive learning to enhance task-relevant information while suppressing irrelevant information in the feature embeddings. We validate the proposed method on the publicly available Multi-View Pouring and a custom Pick and Place data sets and compare it with the TCN triplet baseline. We evaluate the learned representations using three metrics: viewpoint alignment, stage classification and reinforcement learning, and in all cases the results improve when compared to state-of-the-art approaches, with the added benefit of reduced number of training iterations.
翻訳日:2022-02-01 14:35:20 公開日:2022-01-30
# (参考訳) てんかんのAIプラットフォームは、バイオメディカル知識を結びつけてイノベーションを加速する [全文訳有]

Epistemic AI platform accelerates innovation by connecting biomedical knowledge ( http://arxiv.org/abs/2201.11331v2 )

ライセンス: CC BY 4.0
Emily Koo, Heather Bowling, Kenneth Ashworth, David J. Heeger, Stefano Pacifico(参考訳) 疫学的AIは、バイオメディカル知識のネットワークに隠れた接続を見つけることによって、生物医学的な発見を加速する。 認識論的ai webベースのソフトウェアプラットフォームは、ナレッジグラフと自然言語処理(nlp)、情報検索、関連性フィードバック、ネットワーク分析を組み合わせたインタラクティブなプロセスであるナレッジマッピングの概念を具現化している。 知識マッピングは、情報過負荷を削減し、コストのかかるミスを防止し、研究プロセスの機会を最小化する。 このプラットフォームは、情報抽出のための最先端の手法と、機械学習、人工知能、ネットワーク分析を組み合わせたものだ。 ユーザーは、遺伝子や病気のような単一の生物学的実体から始めることができる。 a)その実体への接続の地図を構築すること b) 利害関係の全領域を地図化し、 c) 知識の大きな生物学的ネットワークに対する洞察を得ること。 知識マップは明確さと組織を提供し、日々の研究プロセスを簡素化する。

Epistemic AI accelerates biomedical discovery by finding hidden connections in the network of biomedical knowledge. The Epistemic AI web-based software platform embodies the concept of knowledge mapping, an interactive process that relies on a knowledge graph in combination with natural language processing (NLP), information retrieval, relevance feedback, and network analysis. Knowledge mapping reduces information overload, prevents costly mistakes, and minimizes missed opportunities in the research process. The platform combines state-of-the-art methods for information extraction with machine learning, artificial intelligence and network analysis. Starting from a single biological entity, such as a gene or disease, users may: a) construct a map of connections to that entity, b) map an entire domain of interest, and c) gain insight into large biological networks of knowledge. Knowledge maps provide clarity and organization, simplifying the day-to-day research processes.
翻訳日:2022-02-01 14:11:34 公開日:2022-01-30