このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220414となっている論文です。

PDF登録状況(公開日: 20220414)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習に基づく自動熱快適予測:高精度な低コスト熱カメラと視覚カメラの統合

Machine Learning-Based Automated Thermal Comfort Prediction: Integration of Low-Cost Thermal and Visual Cameras for Higher Accuracy ( http://arxiv.org/abs/2204.08463v1 )

ライセンス: Link先を確認
Roshanak Ashrafi, Mona Azarbayjani, Hamed Tabkhi(参考訳) 最近の研究は、個人の幸福と建物の省エネを考えるために、建物の制御ループにおける居住者の需要を生かそうとしている。 この目的のために, ビルの暖房, 冷却, 空調システム(HVAC)の制御に使用可能な, 利用者の快適性に関するデータを提供するために, リアルタイムフィードバックシステムが必要である。 熱画像技術の出現は、居住環境や活動の中断のない接触のないデータ収集に優れた機会を与える。 人の皮膚温度を読み取る際の非侵襲的品質のため、公共の建物では赤外線サーマルカメラの使用が注目されている。 しかし、最先端の手法はより信頼性を高めるために追加の修正が必要である。 ポテンシャルの資本化といくつかの既存の制限に対処するためには、機械学習と画像処理の利点を活用して、非侵襲的なサーマルスキャンに対するより包括的な視点をもたらす新しいソリューションが必要である。 本研究は、同時熱画像と視覚画像の収集と登録を自動化し、異なる領域の顔の温度を読み取る。 本報告ではさらに2つの調査を行う。 まず,前額部のibuttonウェアラブルサーモセンサを用いて,皮膚温度を読み取る際の感熱カメラ(flir lepton)の信頼性について検討する。 第2に、熱画像の偽色バージョンを調べることで、非放射熱画像によるパーソナライズされた熱快適性を予測する可能性を考察する。 その結果, 温暖化予測におけるランダムフォレストとK-Nearest Neighbor予測アルゴリズムの強い性能が示された。 さらに,非放射能画像は,大量のデータを用いてアルゴリズムをトレーニングした場合,熱的快適性を示すことも確認できた。

Recent research is trying to leverage occupants' demand in the building's control loop to consider individuals' well-being and the buildings' energy savings. To that end, a real-time feedback system is needed to provide data about occupants' comfort conditions that can be used to control the building's heating, cooling, and air conditioning (HVAC) system. The emergence of thermal imaging techniques provides an excellent opportunity for contactless data gathering with no interruption in occupant conditions and activities. There is increasing attention to infrared thermal camera usage in public buildings because of their non-invasive quality in reading the human skin temperature. However, the state-of-the-art methods need additional modifications to become more reliable. To capitalize potentials and address some existing limitations, new solutions are required to bring a more holistic view toward non-intrusive thermal scanning by leveraging the benefit of machine learning and image processing. This research implements an automated approach to collect and register simultaneous thermal and visual images and read the facial temperature in different regions. This paper also presents two additional investigations. First, through utilizing IButton wearable thermal sensors on the forehead area, we investigate the reliability of an in-expensive thermal camera (FLIR Lepton) in reading the skin temperature. Second, by studying the false-color version of thermal images, we look into the possibility of non-radiometric thermal images for predicting personalized thermal comfort. The results shows the strong performance of Random Forest and K-Nearest Neighbor prediction algorithms in predicting personalized thermal comfort. In addition, we have found that non-radiometric images can also indicate thermal comfort when the algorithm is trained with larger amounts of data.
翻訳日:2022-04-24 15:47:00 公開日:2022-04-14
# 文法カテゴリーの活用に基づく学習

Usage-based learning of grammatical categories ( http://arxiv.org/abs/2204.10201v1 )

ライセンス: Link先を確認
Luc Steels, Paul Van Eecke, Katrien Beuls(参考訳) 人間の言語は、文法パターンの特定のスロットを埋めることができる単語や句を制約し、形態素合成手段を通じて時制やアスペクトといった追加の意味を表現するために、幅広い文法カテゴリを使用する。 これらの文法カテゴリーは、しばしば言語固有のものであり、時間とともに変化するが、定義や学習は困難である。 本稿は、これらのカテゴリがどのように獲得され、どこから来たのかという疑問を提起する。 使用法に基づくアプローチを探求する。 これは、カテゴリと文法構成が選択され、言語相互作用の成功と一致していることを意味する。 本稿では,エージェントに発話の理解と生成のメカニズムを付与するマルチエージェント実験と,プロ・アンチ・ユニフィケーションに基づくメタレベル学習プロセスを用いた在庫拡大のメカニズムについて報告する。 本稿では,言語相互作用の成功に基づくスコアを持つ分類型ネットワークが,文法パターンの形成に伴う文法カテゴリーの自発的な形成につながることを示す。

Human languages use a wide range of grammatical categories to constrain which words or phrases can fill certain slots in grammatical patterns and to express additional meanings, such as tense or aspect, through morpho-syntactic means. These grammatical categories, which are most often language-specific and changing over time, are difficult to define and learn. This paper raises the question how these categories can be acquired and where they have come from. We explore a usage-based approach. This means that categories and grammatical constructions are selected and aligned by their success in language interactions. We report on a multi-agent experiment in which agents are endowed with mechanisms for understanding and producing utterances as well as mechanisms for expanding their inventories using a meta-level learning process based on pro- and anti-unification. We show that a categorial type network which has scores based on the success in a language interaction leads to the spontaneous formation of grammatical categories in tandem with the formation of grammatical patterns.
翻訳日:2022-04-24 15:28:01 公開日:2022-04-14
# 神経フィードバックループの後方到達性解析

Backward Reachability Analysis for Neural Feedback Loops ( http://arxiv.org/abs/2204.08319v1 )

ライセンス: Link先を確認
Nicholas Rober, Michael Everett, Jonathan P. How(参考訳) 安全クリティカルなアプリケーションにおけるニューラルネットワーク(NN)の普及は、その振る舞いを認証し、安全性を保証する方法を求めている。 本稿では,ニューラルフィードバックループ(NFL)の安全性検証,すなわちNN制御ポリシを備えた閉ループシステムに対する後方到達性アプローチを提案する。 最近の研究はnflの安全認定戦略としての前方到達性に焦点を当てているが、後方到達性は前方戦略、特に障害物回避シナリオよりも優れている。 以前の研究は、nnを持たないシステムの後方到達可能性解析技術を開発したが、フィードバックループにおけるnnの存在は、その活性化関数の非線形性と、nnモデルが一般に可逆ではないため、ユニークな問題群を示している。 これらの課題を克服するために、既存の前方NN分析ツールを用いて制御入力のアフィン境界を見つけ、一連の線形プログラム(LP)を解き、バックプロジェクション(BP)セットの近似、すなわちNN制御ポリシが所定のターゲットセットにシステムを駆動する状態の集合を効率的に見つける。 我々は,与えられた時間軸上のbp集合推定を反復的に発見するアルゴリズムを示し,計算コストを低くしてbp集合推定の保守性を最大88%削減する能力を示す。 これらのアルゴリズムの有効性を検証するために, 二重積分器モデルを用いた数値実験を行い, 衝突回避シナリオにおいて, 衝突回避シナリオにおいて, 線形地上ロボットモデルの安全性を検証できることを示す。

The increasing prevalence of neural networks (NNs) in safety-critical applications calls for methods to certify their behavior and guarantee safety. This paper presents a backward reachability approach for safety verification of neural feedback loops (NFLs), i.e., closed-loop systems with NN control policies. While recent works have focused on forward reachability as a strategy for safety certification of NFLs, backward reachability offers advantages over the forward strategy, particularly in obstacle avoidance scenarios. Prior works have developed techniques for backward reachability analysis for systems without NNs, but the presence of NNs in the feedback loop presents a unique set of problems due to the nonlinearities in their activation functions and because NN models are generally not invertible. To overcome these challenges, we use existing forward NN analysis tools to find affine bounds on the control inputs and solve a series of linear programs (LPs) to efficiently find an approximation of the backprojection (BP) set, i.e., the set of states for which the NN control policy will drive the system to a given target set. We present an algorithm to iteratively find BP set estimates over a given time horizon and demonstrate the ability to reduce conservativeness in the BP set estimates by up to 88% with low additional computational cost. We use numerical results from a double integrator model to verify the efficacy of these algorithms and demonstrate the ability to certify safety for a linearized ground robot model in a collision avoidance scenario where forward reachability fails.
翻訳日:2022-04-19 17:02:02 公開日:2022-04-14
# ガウス環境下における分散パラメータ推定の代替手法

An alternative approach for distributed parameter estimation under Gaussian settings ( http://arxiv.org/abs/2204.08317v1 )

ライセンス: Link先を確認
Subhro Das(参考訳) 本稿では,マルチエージェントネットワーク上での分散線形パラメータ推定に対して,異なるアプローチをとる。 パラメータベクトルはガウス分布と確率的であると考えられている。 各エージェントにおけるセンサ測定は線形であり、付加的な白色ガウス雑音で劣化する。 そこで本稿では,コンセンサス項(隣り合う推定項)を革新項に組み込むことで,コンセンサスとイノベーションの概念を融合する分散推定アルゴリズムを提案する。 本稿では,分散パラメータ観測可能性の前提として,分散推定値が一貫した最適ゲイン行列を設計し,高速収束を実現する。

This paper takes a different approach for the distributed linear parameter estimation over a multi-agent network. The parameter vector is considered to be stochastic with a Gaussian distribution. The sensor measurements at each agent are linear and corrupted with additive white Gaussian noise. Under such settings, this paper presents a novel distributed estimation algorithm that fuses the the concepts of consensus and innovations by incorporating the consensus terms (of neighboring estimates) into the innovation terms. Under the assumption of distributed parameter observability, introduced in this paper, we design the optimal gain matrices such that the distributed estimates are consistent and achieves fast convergence.
翻訳日:2022-04-19 17:00:59 公開日:2022-04-14
# (参考訳) big-means: k-meansクラスタリングのためのless

Big-means: Less is More for K-means Clustering ( http://arxiv.org/abs/2204.07485v1 )

ライセンス: CC BY 4.0
Rustam Mussabayev, Nenad Mladenovic, Bassem Jarboui, Ravil Mussabayev(参考訳) K平均クラスタリングはデータマイニングにおいて重要な役割を果たす。 しかし、大量のデータに適用すると、その性能は劇的に低下する。 我々は,"less is more" と mssc の分解アプローチを用いて,より高速かつ高精度なビッグデータクラスタリングを実現するために,正規の k-means に基づいて構築した新しいヒューリスティックを提案する。 提案アルゴリズムの主な利点は、K-means局所探索をMSSC問題の分解過程を通じて、自然にグローバル検索に変換することである。 一方、MSSC問題をより小さなサブプロブレムに分解すると計算複雑性が減少し、並列処理が可能となる。 一方、MSSC分解は、MSSC問題の解に対する新しい近傍構造を導入しつつ、既存の解の自然なデータ駆動的揺らぎの新しい方法を提供する。 これにより、ビッグデータ条件におけるK平均を改善する新たなヒューリスティックが生まれる。 アルゴリズムのビッグデータへの拡張性は、適切なサブプロブレム数とそのサイズを選択することで容易に調整できる。 提案アルゴリズムはスケーラブルかつ高精度である。 我々の実験では、MSSCの最近の最先端アルゴリズムとソリューションの質において、性能が優れています。

K-means clustering plays a vital role in data mining. However, its performance drastically drops when applied to huge amounts of data. We propose a new heuristic that is built on the basis of regular K-means for faster and more accurate big data clustering using the "less is more" and MSSC decomposition approaches. The main advantage of the proposed algorithm is that it naturally turns the K-means local search into global one through the process of decomposition of the MSSC problem. On one hand, decomposition of the MSSC problem into smaller subproblems reduces the computational complexity and allows for their parallel processing. On the other hand, the MSSC decomposition provides a new method for the natural data-driven shaking of the incumbent solution while introducing a new neighborhood structure for the solution of the MSSC problem. This leads to a new heuristic that improves K-means in big data conditions. The scalability of the algorithm to big data can be easily adjusted by choosing the appropriate number of subproblems and their size. The proposed algorithm is both scalable and accurate. In our experiments it outperforms all recent state-of-the-art algorithms for the MSSC in terms of time as well as the solution quality.
翻訳日:2022-04-19 03:49:22 公開日:2022-04-14
# (参考訳) コンプライアンスチェックアプリケーションのためのステートレスおよびルールベース検証 [全文訳有]

Stateless and Rule-Based Verification For Compliance Checking Applications ( http://arxiv.org/abs/2204.07430v1 )

ライセンス: CC BY 4.0
Mohammad Reza Besharati, Mohammad Izadi, Ehsaneddin Asgari(参考訳) 下位の計算モデルは、あらゆる計算において重要な役割を果たす。 状態と遷移(オートマトンなど)とルールと値(Lispや論理プログラミングなど)は、同等で同等の2つの計算モデルである。 推論とモデル検査の両方の検証手法は状態の概念に依存しており、その結果、基礎となる計算モデルは状態に依存します。 いくつかの検証問題(例えば、規制や規則に対してアンダーコンプライアンスシステムが検証されるコンプライアンスチェック)は、状態や遷移の強い概念を持っていない。 いずれにせよ、これらのシステムには価値記号と宣言的ルールという強い概念がある。 SARV (Stateless And Rule-Based Verification) は、ステートレスおよびルールベースの検証問題(例えばコンプライアンスチェック)の検証プロセス全体を単純化するために設計された検証フレームワークである。 本稿では,インテリジェントなコンプライアンスチェックシステムを構築するための,論理ベースの形式的フレームワークを提案する。 我々は,この枠組みを定義し,導入し,ケーススタディを報告し,実験結果を提示する。 このケーススタディはスマートシティのプロトコルコンプライアンスチェックに関するものだ。 このソリューションを使用すると、Rescue Scenarioユースケースとそのコンプライアンスチェックがスケッチされ、モデル化される。 SARVによる自動化エンジンとコンプライアンスソリューションが導入される。 300のデータ実験に基づいて、sarvベースのコンプライアンスソリューションは、3125レコードのソフトウェア品質データセット上で有名な機械学習手法を上回る。

Underlying computational model has an important role in any computation. The state and transition (such as in automata) and rule and value (such as in Lisp and logic programming) are two comparable and counterpart computational models. Both of deductive and model checking verification techniques are relying on a notion of state and as a result, their underlying computational models are state dependent. Some verification problems (such as compliance checking by which an under compliance system is verified against some regulations and rules) have not a strong notion of state nor transition. Behalf of it, these systems have a strong notion of value symbols and declarative rules defined on them. SARV (Stateless And Rule-Based Verification) is a verification framework that designed to simplify the overall process of verification for stateless and rule-based verification problems (e.g. compliance checking). In this paper, a formal logic-based framework for creating intelligent compliance checking systems is presented. We define and introduce this framework, report a case study and present results of an experiment on it. The case study is about protocol compliance checking for smart cities. Using this solution, a Rescue Scenario use case and its compliance checking are sketched and modeled. An automation engine for and a compliance solution with SARV are introduced. Based on 300 data experiments, the SARV-based compliance solution outperforms famous machine learning methods on a 3125-records software quality dataset.
翻訳日:2022-04-19 03:48:04 公開日:2022-04-14
# (参考訳) 逆距離重み付けによる回帰と分類のためのアクティブラーニング [全文訳有]

Active Learning for Regression and Classification by Inverse Distance Weighting ( http://arxiv.org/abs/2204.07177v1 )

ライセンス: CC BY 4.0
Alberto Bemporad(参考訳) 本稿では,問合せのための特徴ベクトル選択のための逆距離重み関数に基づく回帰・分類問題を解くアクティブラーニングアルゴリズムを提案する。 アルゴリズムには以下の特徴がある。 (i)プールベース及び人口ベースサンプリングの両方をサポートする。 (ii) 使用する予測器の種類とは独立している。 (iii)クエリ可能な特徴ベクトルの既知の制約や未知の制約を処理できる。 (iv) 予測器の再トレーニング頻度に応じて、逐次またはバッチモードで実行することができる。 この手法のポテンシャルは、UCIレポジトリの実証的な合成問題と実世界の回帰と分類データセットに関する数値実験で示される。 IDEAL(Inverse-Distan ce based Exploration for Active Learning)と呼ばれるアルゴリズムのPython実装は、 \url{http://cse.lab.imtlu cca.it/~bemporad/ide al}で利用可能である。

This paper proposes an active learning algorithm for solving regression and classification problems based on inverse-distance weighting functions for selecting the feature vectors to query. The algorithm has the following features: (i) supports both pool-based and population-based sampling; (ii) is independent of the type of predictor used; (iii) can handle known and unknown constraints on the queryable feature vectors; and (iv) can run either sequentially, or in batch mode, depending on how often the predictor is retrained. The method's potential is shown in numerical tests on illustrative synthetic problems and real-world regression and classification datasets from the UCI repository. A Python implementation of the algorithm that we call IDEAL (Inverse-Distance based Exploration for Active Learning), is available at \url{http://cse.lab.imtlu cca.it/~bemporad/ide al}.
翻訳日:2022-04-19 03:40:25 公開日:2022-04-14
# (参考訳) 3次元点雲における対話型物体分割

Interactive Object Segmentation in 3D Point Clouds ( http://arxiv.org/abs/2204.07183v1 )

ライセンス: CC BY 4.0
Theodora Kontogianni, Ekin Celikkan, Siyu Tang and Konrad Schindler(参考訳) ディープラーニングは大量のラベル付きトレーニングデータに依存する。 手動ラベリングは高価であり、特に個別のポイントのレベルまでラベルを割り当てなければならないセグメンテーションのようなタスクではボトルネックとなる。 3Dポイントのクラウドはシーンごとに何百万ポイントものポイントを持ち、それらの正確なアノテーションは明らかに時間を要する。 この状況はさらに悪化し、3dポイントクラウドのユーザインターフェースの複雑さが増し、アノテーションがさらに遅くなっている。 2Dイメージセグメンテーションの場合、対話的なテクニックが一般的になり、数クリックの形式でユーザのフィードバックがセグメンテーションアルゴリズム(通常はニューラルネットワーク)をガイドして、最小限の労力で正確なラベリングを実現する。 驚くべきことに、3Dシーンのインタラクティブなセグメンテーションはあまり研究されていない。 従来,2D領域からの人間のフィードバックによる正確な3Dセグメンテーションマスクの取得を試みたが,これは3Dポイントクラウドと正しく整列された画像が同時に利用できる場合にのみ可能であり,2Dドメインと3Dドメインの切り替えを伴う。 本稿では,ユーザが直接3Dポイントクラウドと対話する対話型3Dオブジェクトセグメンテーション手法を提案する。 私たちのモデルは、ターゲットドメインからのトレーニングデータを必要としない。ScanNetでトレーニングすると、異なるデータ特性と異なるオブジェクトクラスを持つ他のいくつかのデータセットでうまく機能します。 さらに,提案手法は教師付き(インスタンス)セグメンテーション法と直交し,それらと組み合わせることで,最小限の人間の努力で自動セグメンテーションを洗練することができる。

Deep learning depends on large amounts of labeled training data. Manual labeling is expensive and represents a bottleneck, especially for tasks such as segmentation, where labels must be assigned down to the level of individual points. That challenge is even more daunting for 3D data: 3D point clouds contain millions of points per scene, and their accurate annotation is markedly more time-consuming. The situation is further aggravated by the added complexity of user interfaces for 3D point clouds, which slows down annotation even more. For the case of 2D image segmentation, interactive techniques have become common, where user feedback in the form of a few clicks guides a segmentation algorithm -- nowadays usually a neural network -- to achieve an accurate labeling with minimal effort. Surprisingly, interactive segmentation of 3D scenes has not been explored much. Previous work has attempted to obtain accurate 3D segmentation masks using human feedback from the 2D domain, which is only possible if correctly aligned images are available together with the 3D point cloud, and it involves switching between the 2D and 3D domains. Here, we present an interactive 3D object segmentation method in which the user interacts directly with the 3D point cloud. Importantly, our model does not require training data from the target domain: when trained on ScanNet, it performs well on several other datasets with different data characteristics as well as different object classes. Moreover, our method is orthogonal to supervised (instance) segmentation methods and can be combined with them to refine automatic segmentations with minimal human effort.
翻訳日:2022-04-19 03:15:03 公開日:2022-04-14
# (参考訳) ベクトルシンボリックニューラルアーキテクチャにおける関係推論のための最適二次結合

Optimal quadratic binding for relational reasoning in vector symbolic neural architectures ( http://arxiv.org/abs/2204.07186v1 )

ライセンス: CC BY 4.0
Naoki Hiratani, Haim Sompolinsky(参考訳) 結合操作は、認知地図形成、関係推論、言語理解など、多くの認知プロセスに基本的である。 これらのプロセスでは、位置とオブジェクト、イベントとその文脈の手がかり、言葉とそれらの役割の2つの異なるモードが結合する必要があるが、基礎となる神経機構についてはほとんど知られていない。 先行研究は、有界対の二次函数に基づく結合モデルを導入し、次いで複数の対のベクトル和を導入した。 二次行列のどのクラスが関係構造を復号するのに最適か? そして、その結果の正確さは何か? 複素数の8次元拡大であるオクタニオン代数の行列表現に基づく新しい結合行列のクラスを導入する。 これらの行列は、少数のペアが存在する場合、従来知られていた方法よりも正確な非結合を可能にする。 さらに、結合作用素の数値最適化はこのオクトン結合に収束する。 また, 多数の束縛対が存在する場合, ランダムな二次結合はオクタニオン法や前述した結合法と同様に作用することを示した。 この研究は、脳内の結合操作の潜在的な神経機構に関する新たな知見を提供する。

Binding operation is fundamental to many cognitive processes, such as cognitive map formation, relational reasoning, and language comprehension. In these processes, two different modalities, such as location and objects, events and their contextual cues, and words and their roles, need to be bound together, but little is known about the underlying neural mechanisms. Previous works introduced a binding model based on quadratic functions of bound pairs, followed by vector summation of multiple pairs. Based on this framework, we address following questions: Which classes of quadratic matrices are optimal for decoding relational structures? And what is the resultant accuracy? We introduce a new class of binding matrices based on a matrix representation of octonion algebra, an eight-dimensional extension of complex numbers. We show that these matrices enable a more accurate unbinding than previously known methods when a small number of pairs are present. Moreover, numerical optimization of a binding operator converges to this octonion binding. We also show that when there are a large number of bound pairs, however, a random quadratic binding performs as well as the octonion and previously-proposed binding methods. This study thus provides new insight into potential neural mechanisms of binding operations in the brain.
翻訳日:2022-04-19 03:13:55 公開日:2022-04-14
# (参考訳) 階層的埋め込みベイズ加法回帰木 [全文訳有]

Hierarchical Embedded Bayesian Additive Regression Trees ( http://arxiv.org/abs/2204.07207v1 )

ライセンス: CC BY 4.0
Bruna Wundervald, Andrew Parnell, Katarina Domijan(参考訳) 本稿では,階層型埋め込みBART (HE-BART) と呼ばれるベイジアン付加回帰木の単純かつ強力な拡張を提案する。 このモデルでは、回帰木の集合の終端ノードレベルにランダム効果を含めることができるため、HE-BARTを混合効果モデルの非パラメトリックな代替品とし、標準BARTの予測と不確実な校正特性を維持しつつ、ユーザがモデル内のランダム効果の構造を特定することを避ける。 シミュレーションおよび実世界の例を用いて、この新しい拡張は標準的な混合効果モデルのサンプルデータセットの多くに対して優れた予測をもたらすことを実証するが、それでもランダム効果のばらつきを一貫して推定する。 本論文の今後のバージョンでは,より大規模で高度なデータセットと構造での利用について概説する。

We propose a simple yet powerful extension of Bayesian Additive Regression Trees which we name Hierarchical Embedded BART (HE-BART). The model allows for random effects to be included at the terminal node level of a set of regression trees, making HE-BART a non-parametric alternative to mixed effects models which avoids the need for the user to specify the structure of the random effects in the model, whilst maintaining the prediction and uncertainty calibration properties of standard BART. Using simulated and real-world examples, we demonstrate that this new extension yields superior predictions for many of the standard mixed effects models' example data sets, and yet still provides consistent estimates of the random effect variances. In a future version of this paper, we outline its use in larger, more advanced data sets and structures.
翻訳日:2022-04-19 03:12:21 公開日:2022-04-14
# (参考訳) Debiased Recommendations のためのネットワーク情報を用いた因果解離 [全文訳有]

Causal Disentanglement with Network Information for Debiased Recommendations ( http://arxiv.org/abs/2204.07221v1 )

ライセンス: CC BY 4.0
Paras Sheth, Ruocheng Guo, Lu Cheng, Huan Liu, K. Sel\c{c}uk Candan(参考訳) リコメンダシステムは,ユーザとアイテムの表現を学習することで,ユーザに新しいアイテムを推薦することを目的としている。 実際には、これらの表現は、ユーザの興味、アイテム属性、ユーザの適合性、アイテムの人気など、複数の要素に関する情報で構成されるため、非常に絡み合っている。 ユーザの好みを推測するための絡み合った表現を考えると、偏りのある推奨(例えば、レコメンデーションモデルがユーザーの興味に合致していない場合でも、人気のあるアイテムを推奨する)につながる可能性がある。 最近の研究は,因果的観点からレコメンダシステムをモデル化することでデバイアスを解消する。 暴露と評価は、それぞれ因果推論の枠組みにおける治療と結果に類似している。 この設定における重要な課題は、隠れた共同設立者を説明することだ。 これらの共同ファウンダーは観察できないため、測定が難しい。 一方で、これらの共同創設者は、露出とレーティングの両方に影響を与えているため、デバイアスドレコメンデーションを生成する際にそれらを説明することが不可欠である。 隠れた共同創設者をよりよく近似するために、ユーザーがアイテムを発見して対話する方法に影響を与えるネットワーク情報(すなわち、ユーザ・ソーシャルおよびユーザ・イテムネットワーク)を活用することを提案する。 ユーザのコンフォメーションとは別に、ネットワーク情報に存在するアイテムの人気などのコンファウンディングの側面も、学習した表現を独立した要因に解き明かす \textit{causal disentanglement} の助けを借りて、本手法で取得する。 (a)利用者へのアイテムの露出をモデル化すること。 (b)評価の予測、及び (c) 隠れた共同設立者を制御すること。 実世界のデータセットに関する実験は、提案モデルの有効性を検証する。

Recommender systems aim to recommend new items to users by learning user and item representations. In practice, these representations are highly entangled as they consist of information about multiple factors, including user's interests, item attributes along with confounding factors such as user conformity, and item popularity. Considering these entangled representations for inferring user preference may lead to biased recommendations (e.g., when the recommender model recommends popular items even if they do not align with the user's interests). Recent research proposes to debias by modeling a recommender system from a causal perspective. The exposure and the ratings are analogous to the treatment and the outcome in the causal inference framework, respectively. The critical challenge in this setting is accounting for the hidden confounders. These confounders are unobserved, making it hard to measure them. On the other hand, since these confounders affect both the exposure and the ratings, it is essential to account for them in generating debiased recommendations. To better approximate hidden confounders, we propose to leverage network information (i.e., user-social and user-item networks), which are shown to influence how users discover and interact with an item. Aside from the user conformity, aspects of confounding such as item popularity present in the network information is also captured in our method with the aid of \textit{causal disentanglement} which unravels the learned representations into independent factors that are responsible for (a) modeling the exposure of an item to the user, (b) predicting the ratings, and (c) controlling the hidden confounders. Experiments on real-world datasets validate the effectiveness of the proposed model for debiasing recommender systems.
翻訳日:2022-04-19 02:50:52 公開日:2022-04-14
# (参考訳) 多言語テキスト音声における不特定語彙音韻特徴の適用 [全文訳有]

Applying Feature Underspecified Lexicon Phonological Features in Multilingual Text-to-Speech ( http://arxiv.org/abs/2204.07228v1 )

ライセンス: CC BY 4.0
Cong Zhang, Huinan Zeng, Huang Liu, Jiewen Zheng(参考訳) 本研究では,不特定語彙モデルから派生した音韻的特徴を音声合成システムに適用し,英語とマンダリンの母語・非母語音声を生成できるかどうかを検討する。 ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。 このマッピングは、2つの言語でネイティブ、非ネイティブ、コード切り替わった音声が成功するかどうかをテストされた。 1つは小さなデータセット、もう1つはより大きなデータセットです。 その結果, 音韻的特徴を列車データ中の言語に対して実行可能な入力システムとして用いることができたが, モデル性能の向上にはさらなる検討が必要であることがわかった。 その結果、FULに対して、うまく合成された出力を提示し、トレーニングデータにない言語を合成する際に、ソース言語アクセントを有する出力を付与することで支援を行う。 TTSプロセスは人間の第2言語習得プロセスを刺激し、FULの獲得を説明できる能力も確認した。

This study investigates whether the phonological features derived from the Featurally Underspecified Lexicon model can be applied in text-to-speech systems to generate native and non-native speech in English and Mandarin. We present a mapping of ARPABET/pinyin to SAMPA/SAMPA-SC and then to phonological features. This mapping was tested for whether it could lead to the successful generation of native, non-native, and code-switched speech in the two languages. We ran two experiments, one with a small dataset and one with a larger dataset. The results supported that phonological features could be used as a feasible input system for languages in or not in the train data, although further investigation is needed to improve model performance. The results lend support to FUL by presenting successfully synthesised output, and by having the output carrying a source-language accent when synthesising a language not in the training data. The TTS process stimulated human second language acquisition process and thus also confirm FUL's ability to account for acquisition.
翻訳日:2022-04-19 02:33:11 公開日:2022-04-14
# (参考訳) 非べき半環に対する最短文字列復号法 [全文訳有]

A* shortest string decoding for non-idempotent semirings ( http://arxiv.org/abs/2204.07236v1 )

ライセンス: CC BY 4.0
Kyle Gorman and Cyril Allauzen(参考訳) 単一最短経路アルゴリズムは、最短経路の存在を保証しないため、非等方半環上の重み付き有限状態オートマトンに対して未定義である。 しかし、単調条件を満たす順序(プラス時間やログ半環など)を許容する非イデミネーション半環では、最短弦の概念はよく定義される。 本稿では,同値な決定論的オートマトン(DFA)の後方最短距離を用いて,重み付き非決定論的オートマトンに対する最短文字列を求めるアルゴリズムについて述べる。 DFAには指数関数的に多くの状態が存在するかもしれないが、このアルゴリズムは、決定が「オンザフライ」で実行される場合、少数の状態のみにアクセスする必要がある。

The single shortest path algorithm is undefined for weighted finite-state automata over non-idempotent semirings because such semirings do not guarantee the existence of a shortest path. However, in non-idempotent semirings admitting an order satisfying a monotonicity condition (such as the plus-times or log semirings), the notion of shortest string is well-defined. We describe an algorithm which finds the shortest string for a weighted non-deterministic automaton over such semirings using the backwards shortest distance of an equivalent deterministic automaton (DFA) as a heuristic for A* search performed over a companion idempotent semiring, which is proven to return the shortest string. While there may be exponentially more states in the DFA, this algorithm needs to visit only a small fraction of them if determinization is performed "on the fly".
翻訳日:2022-04-19 02:05:22 公開日:2022-04-14
# (参考訳) プロンプトの技術:型特異的プロンプトに基づくイベント検出 [全文訳有]

The Art of Prompting: Event Detection based on Type Specific Prompts ( http://arxiv.org/abs/2204.07241v1 )

ライセンス: CC BY 4.0
Sijia Wang, Mo Yu, Lifu Huang(参考訳) イベントタイプを表現するためのさまざまなプロンプトを比較し、教師付き、少数ショット、ゼロショットイベント検出のためのイベントタイプ固有のプロンプトを組み込む統一フレームワークを開発する。 実験結果から,特に注釈付きデータが不足している場合(フェーショットイベント検出)や利用できない場合(ゼロショットイベント検出)において,適切に定義された総合的なイベント型プロンプトがイベント検出性能を大幅に向上することが示された。 イベントタイプのセマンティクスを活用することで、私たちの統一フレームワークは、以前の最先端ベースラインよりも最大24.3\%f-scoreゲインを示します。

We compare various forms of prompts to represent event types and develop a unified framework to incorporate the event type specific prompts for supervised, few-shot, and zero-shot event detection. The experimental results demonstrate that a well-defined and comprehensive event type prompt can significantly improve the performance of event detection, especially when the annotated data is scarce (few-shot event detection) or not available (zero-shot event detection). By leveraging the semantics of event types, our unified framework shows up to 24.3\% F-score gain over the previous state-of-the-art baselines.
翻訳日:2022-04-19 01:55:06 公開日:2022-04-14
# (参考訳) オフラインライタ非依存シグネチャ検証におけるロボット攻撃と生成攻撃 [全文訳有]

Robotic and Generative Adversarial Attacks in Offline Writer-independent Signature Verification ( http://arxiv.org/abs/2204.07246v1 )

ライセンス: CC BY 4.0
Jordan J. Bird(参考訳) 本研究では,ロボットと生成的アプローチを用いて,署名検証システムに対する偽受容攻撃を成功させる方法について検討する。 当初、畳み込みニューラルネットワークのトポロジとデータ拡張戦略を探索、調整し、2,640人の署名を検証するための87.12%の正確なモデルを生成する。 次に、2つのロボットが50個のシグネチャを鍛造し、25個が検証攻撃に使用され、残りの25個がモデルのチューニングに使用され、それらに対して防御する。 Line-usロボットアームはシステムの24%を騙し、iDraw 2.0ロボットは32%を騙すことができる。 条件付きGANも同様に成功し、30%の偽の署名が真と誤分類されている。 ロボットと生成データの微動伝達学習の後、ロボットとGANの両方によるモデル閾値以下での敵攻撃が減少する。 モデルのチューニングにより,ロボットによる攻撃のリスクは8%,12%,条件付き生成敵攻撃は25画像の提示時に4%,1000画像の提示時には5%に低下することが観察された。

This study explores how robots and generative approaches can be used to mount successful false-acceptance adversarial attacks on signature verification systems. Initially, a convolutional neural network topology and data augmentation strategy are explored and tuned, producing an 87.12% accurate model for the verification of 2,640 human signatures. Two robots are then tasked with forging 50 signatures, where 25 are used for the verification attack, and the remaining 25 are used for tuning of the model to defend against them. Adversarial attacks on the system show that there exists an information security risk; the Line-us robotic arm can fool the system 24% of the time and the iDraw 2.0 robot 32% of the time. A conditional GAN finds similar success, with around 30% forged signatures misclassified as genuine. Following fine-tune transfer learning of robotic and generative data, adversarial attacks are reduced below the model threshold by both robots and the GAN. It is observed that tuning the model reduces the risk of attack by robots to 8% and 12%, and that conditional generative adversarial attacks can be reduced to 4% when 25 images are presented and 5% when 1000 images are presented.
翻訳日:2022-04-19 01:35:48 公開日:2022-04-14
# (参考訳) 強いフィードバックを伴うクレジットアサインメントの最小化制御 [全文訳有]

Minimizing Control for Credit Assignment with Strong Feedback ( http://arxiv.org/abs/2204.07249v1 )

ライセンス: CC BY-SA 4.0
Alexander Meulemans, Matilde Tristany Farinha, Maria R. Cervera, Jo\~ao Sacramento, Benjamin F. Grewe(参考訳) ディープラーニングの成功は、勾配に基づく学習を用いて脳が階層的な表現を学ぶかどうかに関心を惹きつけた。 しかし、ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の生物学的に妥当な方法は、生物学的に現実的な雑音環境において問題となる、無限に小さなフィードバック信号を必要とする。 最近提案されたクレジット割り当て手法であるdeep feedback control(dfc)に基づいて,神経活動に対する強いフィードバックの影響と勾配に基づく学習を組み合わせることにより,ニューラルネットワーク最適化に対する新たな視点が自然に導かれることを示す。 ネットワーク重みを低い出力損失で設定に徐々に変更する代わりに、重み更新は、ネットワークを教師付き出力ラベルに駆動するコントローラから必要なフィードバックの量を徐々に最小化する。 さらに,dfcにおいて強いフィードバックを用いることで,学習規則を空間と時間に完全に局所的に使用することで,フォワード接続とフィードバック接続を同時に学習できることを示す。 我々は,標準コンピュータビジョンベンチマークを用いた実験で理論結果を補完し,バックプロパゲーションに対する競合性能と雑音に対するロバスト性を示した。 全体として,本研究は,生物学的に非現実的な仮定を回避しつつ,制御最小化としての学習の基本的な新しい視点を示す。

The success of deep learning attracted interest in whether the brain learns hierarchical representations using gradient-based learning. However, current biologically plausible methods for gradient-based credit assignment in deep neural networks need infinitesimally small feedback signals, which is problematic in biologically realistic noisy environments and at odds with experimental evidence in neuroscience showing that top-down feedback can significantly influence neural activity. Building upon deep feedback control (DFC), a recently proposed credit assignment method, we combine strong feedback influences on neural activity with gradient-based learning and show that this naturally leads to a novel view on neural network optimization. Instead of gradually changing the network weights towards configurations with low output loss, weight updates gradually minimize the amount of feedback required from a controller that drives the network to the supervised output label. Moreover, we show that the use of strong feedback in DFC allows learning forward and feedback connections simultaneously, using a learning rule fully local in space and time. We complement our theoretical results with experiments on standard computer-vision benchmarks, showing competitive performance to backpropagation as well as robustness to noise. Overall, our work presents a fundamentally novel view of learning as control minimization, while sidestepping biologically unrealistic assumptions.
翻訳日:2022-04-19 01:26:06 公開日:2022-04-14
# (参考訳) 深部残留ネットワーク用グラディエント蛍光体の収束と暗黙正則化特性

Convergence and Implicit Regularization Properties of Gradient Descent for Deep Residual Networks ( http://arxiv.org/abs/2204.07261v1 )

ライセンス: CC BY 4.0
Rama Cont, Alain Rossier, RenYuan Xu(参考訳) 一定の層幅とスムースアクティベーション関数を有するディープ残差ネットワークのトレーニングのために,勾配降下の線形収束を大域的最小値に証明する。 さらに,ネットワークの深さが無限になるにつれて,層指数の関数として訓練された重み付けは,h\"older continuousとなるスケーリング限界を許容することを示した。 この証明は、損失関数と勾配降下経路に沿ったネットワーク重みのノルムの非漸近的な推定に基づいている。 本稿では,教師付き学習問題に関する詳細な数値実験を用いて,理論結果と実践的設定との関係について述べる。

We prove linear convergence of gradient descent to a global minimum for the training of deep residual networks with constant layer width and smooth activation function. We further show that the trained weights, as a function of the layer index, admits a scaling limit which is H\"older continuous as the depth of the network tends to infinity. The proofs are based on non-asymptotic estimates of the loss function and of norms of the network weights along the gradient descent path. We illustrate the relevance of our theoretical results to practical settings using detailed numerical experiments on supervised learning problems.
翻訳日:2022-04-19 00:52:20 公開日:2022-04-14
# (参考訳) 光流量推定のための一貫性 [全文訳有]

Imposing Consistency for Optical Flow Estimation ( http://arxiv.org/abs/2204.07262v1 )

ライセンス: CC BY 4.0
Jisoo Jeong, Jamie Menjay Lin, Fatih Porikli, Nojun Kwak(参考訳) プロキシタスクによる一貫性の導入は、データ駆動学習を強化し、さまざまなタスクにおける自己監督を可能にすることが示されている。 本稿では,実世界のデータからラベルを抽出することが極めて困難である光学フロー推定のための新しい,効果的な一貫性戦略を提案する。 具体的には,自己教師型学習の形式における排他的整合性とゼロ強制性,半教師型学習の形式における変換的整合性を提案する。 我々はこれらの一貫性の手法を、追加のアノテーションを必要とせず、ピクセルレベルの動作をよりよく記述するネットワークモデルに応用する。 我々は,従来のデータセットとラベルを用いた強力なベースラインネットワークモデルに適用した一貫性戦略により,非ステレオカテゴリのKITTI-2015シーンフローベンチマークの最先端結果が得られることを実証した。 本手法は, 単分子画像入力のみを用いながら, ステレオと非ステレオの両方のカテゴリに対して, 最良前景精度(Fl-allの4.33%)を達成する。

Imposing consistency through proxy tasks has been shown to enhance data-driven learning and enable self-supervision in various tasks. This paper introduces novel and effective consistency strategies for optical flow estimation, a problem where labels from real-world data are very challenging to derive. More specifically, we propose occlusion consistency and zero forcing in the forms of self-supervised learning and transformation consistency in the form of semi-supervised learning. We apply these consistency techniques in a way that the network model learns to describe pixel-level motions better while requiring no additional annotations. We demonstrate that our consistency strategies applied to a strong baseline network model using the original datasets and labels provide further improvements, attaining the state-of-the-art results on the KITTI-2015 scene flow benchmark in the non-stereo category. Our method achieves the best foreground accuracy (4.33% in Fl-all) over both the stereo and non-stereo categories, even though using only monocular image inputs.
翻訳日:2022-04-19 00:51:18 公開日:2022-04-14
# フェイクニュースの自動検出: 現在のモデルは"ファクトチェック"か"ガットチェック"か?

Automatic Fake News Detection: Are current models "fact-checking" or "gut-checking"? ( http://arxiv.org/abs/2204.07229v1 )

ライセンス: Link先を確認
Ian Kelk, Benjamin Basseri, Wee Yi Lee, Richard Qiu, Chris Tanner(参考訳) 自動フェイクニュース検出モデルは、表向きはロジックに基づいており、その結果のwebクエリで見つかった証拠を支持したり、反論したりすることで、見出しに書かれたクレームの真相を判断できる。 これらのモデルは何らかの方法で推論されていると考えられているが、証拠だけを考慮せずに、同じ結果、あるいはより良い結果が達成できることが示されている。 このことは、他の信号が検査された証拠の中に含まれており、敵の入力に弱い感情、感情、POS(part-of-speech)周波数などの操作可能な要因に基づいている可能性があることを意味する。 我々は、これらの信号のいくつかを、神経および非神経前処理とスタイル転送の両方の形で中和し、この不均質な指標のフラット化によってモデルが実際にクレームとエビデンスの両方をうまく機能させる必要があることを見出します。 我々は、語彙から構築された感情ベクトルを用いたモデルを構築し、特定の感情を適切に重み付けする「感情的注意」メカニズムを通した。 事実確認にマニピュラブルな特徴が使われているという仮説を証明する定量的な結果を提供する。

Automatic fake news detection models are ostensibly based on logic, where the truth of a claim made in a headline can be determined by supporting or refuting evidence found in a resulting web query. These models are believed to be reasoning in some way; however, it has been shown that these same results, or better, can be achieved without considering the claim at all -- only the evidence. This implies that other signals are contained within the examined evidence, and could be based on manipulable factors such as emotion, sentiment, or part-of-speech (POS) frequencies, which are vulnerable to adversarial inputs. We neutralize some of these signals through multiple forms of both neural and non-neural pre-processing and style transfer, and find that this flattening of extraneous indicators can induce the models to actually require both claims and evidence to perform well. We conclude with the construction of a model using emotion vectors built off a lexicon and passed through an "emotional attention" mechanism to appropriately weight certain emotions. We provide quantifiable results that prove our hypothesis that manipulable features are being used for fact-checking.
翻訳日:2022-04-18 15:28:32 公開日:2022-04-14
# 変圧器の生成と識別能力を用いた開局試験の構成

Constructing Open Cloze Tests Using Generation and Discrimination Capabilities of Transformers ( http://arxiv.org/abs/2204.07237v1 )

ライセンス: Link先を確認
Mariano Felice, Shiva Taslimipoor and Paula Buttery(参考訳) 本稿では,多目的トランスフォーマモデルとして,生成と識別機能を活用して性能を向上させるオープンクローゼテストを構築する。 我々のモデルは、損失関数を微調整し、全体のテスト構造を改善するポストプロセッシング・リグレードアルゴリズムを適用することでさらに強化されている。 自動評価と人的評価を用いた実験により,従来の作業とベースラインを上回って,82%の精度を達成することができた。 また、高品質なオープンクローゼテストのコレクションと、将来のベンチマークとして使えるサンプルシステム出力とヒューマンアノテーションもリリースしています。

This paper presents the first multi-objective transformer model for constructing open cloze tests that exploits generation and discrimination capabilities to improve performance. Our model is further enhanced by tweaking its loss function and applying a post-processing re-ranking algorithm that improves overall test structure. Experiments using automatic and human evaluation show that our approach can achieve up to 82% accuracy according to experts, outperforming previous work and baselines. We also release a collection of high-quality open cloze tests along with sample system output and human annotations that can serve as a future benchmark.
翻訳日:2022-04-18 15:28:09 公開日:2022-04-14
# エキスパート:動的異種学術グラフの公開ベンチマーク

EXPERT: Public Benchmarks for Dynamic Heterogeneous Academic Graphs ( http://arxiv.org/abs/2204.07203v1 )

ライセンス: Link先を確認
Sameera Horawalavithana, Ellyn Ayton, Anastasiya Usenko, Shivam Sharma, Jasmine Eshun, Robin Cosbey, Maria Glenski, and Svitlana Volkova(参考訳) 動的グラフから学習する機械学習モデルは、ノードとエッジの両方が時間とともに変化するため、学習と推論の非自明な課題に直面している。 コミュニティが広く使用している既存の大規模グラフベンチマークデータセットは、主に均質なノードとエッジ属性に注目し、静的である。 本研究では,多段階グラフ予測タスクのためのモデルの有効性を検証するために,大規模で動的に異種な学術グラフを提案する。 新たなデータセットは、人工知能(AI)と核拡散(NN)の2つのコミュニティにわたる科学出版物から抽出された文脈情報と内容情報の両方をカバーする。 さらに,グラフ予測モデルにおける既存の評価手順を改善するための体系的なアプローチを提案する。

Machine learning models that learn from dynamic graphs face nontrivial challenges in learning and inference as both nodes and edges change over time. The existing large-scale graph benchmark datasets that are widely used by the community primarily focus on homogeneous node and edge attributes and are static. In this work, we present a variety of large scale, dynamic heterogeneous academic graphs to test the effectiveness of models developed for multi-step graph forecasting tasks. Our novel datasets cover both context and content information extracted from scientific publications across two communities: Artificial Intelligence (AI) and Nuclear Nonproliferation (NN). In addition, we propose a systematic approach to improve the existing evaluation procedures used in the graph forecasting models.
翻訳日:2022-04-18 15:24:37 公開日:2022-04-14
# 成果予測のための因果変換器

Causal Transformer for Estimating Counterfactual Outcomes ( http://arxiv.org/abs/2204.07258v1 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 多くの応用(例えばパーソナライズドメディカル・メディカル)において、観測データから時間とともに反現実的な結果を評価することが重要である。 しかし、最先端の手法は単純な長短メモリ(LSTM)ネットワーク上に構築されており、複雑な長距離依存関係の推論が難しい。 本稿では, 時間経過に伴う反事実を推定する新しい因果変換器を開発した。 私たちのモデルは、時間によって異なる共同設立者間の複雑な長距離依存関係を捉えるように設計されています。 このために,3つのトランスフォーマーサブネットワークと,時間変動共変量,前処理,前回の結果とを分離した入力を,相互接続を挟むジョイントネットワークに結合した。 我々はさらに、Causal Transformerのためのカスタムエンドツーエンドのトレーニング手順を開発する。 具体的には, 対人バランスの取れた表現を学習することを目的として, 次の結果を予測するが, 現在の治療課題を予測できないような, 新たな対人的ドメイン混乱損失を提案する。 合成および実世界のデータセットに基づいて因果変換器を評価し,現在のベースラインよりも優れた性能を実現する。 我々の知る限りでは、縦断データから対実的な結果を推定するトランスフォーマーベースのアーキテクチャを提案するのはこれが初めてである。

Estimating counterfactual outcomes over time from observational data is relevant for many applications (e.g., personalized medicine). Yet, state-of-the-art methods build upon simple long short-term memory (LSTM) networks, thus rendering inferences for complex, long-range dependencies challenging. In this paper, we develop a novel Causal Transformer for estimating counterfactual outcomes over time. Our model is specifically designed to capture complex, long-range dependencies among time-varying confounders. For this, we combine three transformer subnetworks with separate inputs for time-varying covariates, previous treatments, and previous outcomes into a joint network with in-between cross-attentions. We further develop a custom, end-to-end training procedure for our Causal Transformer. Specifically, we propose a novel counterfactual domain confusion loss to address confounding bias: it aims to learn adversarial balanced representations, so that they are predictive of the next outcome but non-predictive of the current treatment assignment. We evaluate our Causal Transformer based on synthetic and real-world datasets, where it achieves superior performance over current baselines. To the best of our knowledge, this is the first work proposing transformer-based architecture for estimating counterfactual outcomes from longitudinal data.
翻訳日:2022-04-18 15:02:20 公開日:2022-04-14
# 深層強化学習における方法論的アドバイス収集と再利用

Methodical Advice Collection and Reuse in Deep Reinforcement Learning ( http://arxiv.org/abs/2204.07254v1 )

ライセンス: Link先を確認
Sahir, Erc\"ument \.Ilhan, Srijita Das, Matthew E. Taylor(参考訳) 強化学習(rl)は、ディープニューラルネットワークを使用して多くの課題を解決することに成功している。 rlにディープラーニングを使うことは、膨大な表現力をもたらすが、有名なサンプル非効率問題を引き起こす。 これは、アルゴリズムがデータ格納型であり、適切なポリシーに収束するために数百万のトレーニングサンプルを必要とすることを意味する。 この問題に対処する1つの方法は、知識のある教師が生徒を助けるためにアクションアドバイスを提供する教師学生フレームワークでアクションアドバイスを使用することである。 本研究は,生徒がいつアドバイスを求めるべきか,生徒が教師をモデル化してより少ないアドバイスを求めるべきかについて,不確実性をよりうまく活用する方法について考察する。 生徒は、不確かであるときや、その教師のモデルが不確かであるとき、アドバイスを求めることができる。 本稿では,本研究に加えて,2次ニューラルネットワークを用いた深層rlエージェントの不確実性を計算する新しい手法を提案する。 実験結果から,2つの不確実性を用いてアドバイス収集と再利用を行うことにより,アタリゲーム間の学習性能が向上する可能性が示唆された。

Reinforcement learning (RL) has shown great success in solving many challenging tasks via use of deep neural networks. Although using deep learning for RL brings immense representational power, it also causes a well-known sample-inefficiency problem. This means that the algorithms are data-hungry and require millions of training samples to converge to an adequate policy. One way to combat this issue is to use action advising in a teacher-student framework, where a knowledgeable teacher provides action advice to help the student. This work considers how to better leverage uncertainties about when a student should ask for advice and if the student can model the teacher to ask for less advice. The student could decide to ask for advice when it is uncertain or when both it and its model of the teacher are uncertain. In addition to this investigation, this paper introduces a new method to compute uncertainty for a deep RL agent using a secondary neural network. Our empirical results show that using dual uncertainties to drive advice collection and reuse may improve learning performance across several Atari games.
翻訳日:2022-04-18 14:57:50 公開日:2022-04-14
# トランスフォーマーを用いた自然言語処理アプローチによる類似性によって集約されたブラジルの裁判所文書

Brazilian Court Documents Clustered by Similarity Together Using Natural Language Processing Approaches with Transformers ( http://arxiv.org/abs/2204.07182v1 )

ライセンス: Link先を確認
Raphael Souza de Oliveira and Erick Giovani Sperandio Nascimento(参考訳) 最近の人工知能(ai)の進歩は、自然言語処理(nlp)領域における複雑な問題を解決するために有望な結果を活用し、法的領域における司法手続の迅速な解決に役立つ重要なツールとなっている。 この文脈では、ブラジルポルトガル語で事前訓練されたBERT、GPT-2、RoBERTaという変圧器をベースとした6つのNLP技術を適用することにより、推論グループで達成できる司法文書間の類似度を検出する問題と、21万件の訴訟手続を専門とする。 文書は前処理され、その内容はこれらのNLP技術を用いてベクトル表現に変換された。 教師なし学習は、集団の要素と中心体の間の距離のコサインに基づいてモデルの品質を計算し、訴訟をクラスタリングするために使用された。 トランスフォーマに基づくモデルは,ブラジルポルトガル語を専門とするロベルタモデルに注目し,法学分野に適用されるnlpの領域における現在の技術の発展を可能にした。

Recent advances in Artificial intelligence (AI) have leveraged promising results in solving complex problems in the area of Natural Language Processing (NLP), being an important tool to help in the expeditious resolution of judicial proceedings in the legal area. In this context, this work targets the problem of detecting the degree of similarity between judicial documents that can be achieved in the inference group, by applying six NLP techniques based on transformers, namely BERT, GPT-2 and RoBERTa pre-trained in the Brazilian Portuguese language and the same specialized using 210,000 legal proceedings. Documents were pre-processed and had their content transformed into a vector representation using these NLP techniques. Unsupervised learning was used to cluster the lawsuits, calculating the quality of the model based on the cosine of the distance between the elements of the group to its centroid. We noticed that models based on transformers present better performance when compared to previous research, highlighting the RoBERTa model specialized in the Brazilian Portuguese language, making it possible to advance in the current state of the art in the area of NLP applied to the legal sector.
翻訳日:2022-04-18 14:44:54 公開日:2022-04-14
# 深部生成モデルにおけるマニフォールドオーバーフィッティングの診断と修正

Diagnosing and Fixing Manifold Overfitting in Deep Generative Models ( http://arxiv.org/abs/2204.07172v1 )

ライセンス: Link先を確認
Gabriel Loaiza-Ganem, Brendan Leigh Ross, Jesse C. Cresswell, Anthony L. Caterini(参考訳) 確率に基づく、あるいは明示的な深層生成モデルは、ニューラルネットワークを使用して柔軟な高次元密度を構築する。 この定式化は、観測データが高次元空間に埋め込まれた低次元多様体上にあるという多様体仮説と直接矛盾する。 本稿では,この次元的ミスマッチの存在下での最大様相訓練の病理について検討する。 退化最適性は、多様体自体が学習されるが、その上の分布ではない場合に達成されることを正式に証明する。 本研究では,次元減少段階と最大線密度推定による2段階の手順のクラスを提案し,非パラメトリックな状態におけるデータ生成分布の回復を証明し,多様体の過剰適合を回避する。 また,これらの手法により,生成的逆ネットワークなどの暗黙的モデルによって学習される多様体の密度推定が可能となることを示した。 最近提案されたいくつかの手法は、2段階の手順の例であり、それによって大きなモデルのクラスを統一し、拡張し、理論的に正当化する。

Likelihood-based, or explicit, deep generative models use neural networks to construct flexible high-dimensional densities. This formulation directly contradicts the manifold hypothesis, which states that observed data lies on a low-dimensional manifold embedded in high-dimensional ambient space. In this paper we investigate the pathologies of maximum-likelihood training in the presence of this dimensionality mismatch. We formally prove that degenerate optima are achieved wherein the manifold itself is learned but not the distribution on it, a phenomenon we call manifold overfitting. We propose a class of two-step procedures consisting of a dimensionality reduction step followed by maximum-likelihood density estimation, and prove that they recover the data-generating distribution in the nonparametric regime, thus avoiding manifold overfitting. We also show that these procedures enable density estimation on the manifolds learned by implicit models, such as generative adversarial networks, hence addressing a major shortcoming of these models. Several recently proposed methods are instances of our two-step procedures; we thus unify, extend, and theoretically justify a large class of models.
翻訳日:2022-04-18 14:44:32 公開日:2022-04-14
# SemEval-2022 Task 11におけるQtrade AI:多言語NERタスクのための統一フレームワーク

Qtrade AI at SemEval-2022 Task 11: An Unified Framework for Multilingual NER Task ( http://arxiv.org/abs/2204.07459v1 )

ライセンス: Link先を確認
Weichao Gan, Yuanping Lin, Guangbo Yu, Guimin Chen and Qian Ye(参考訳) 本稿では,多言語トラック(サブタスク11)で3位,コードミキシングトラック(サブタスク12)で4位,セムエスバル2022タスク11における中国語トラック(サブタスク9)で7位となったシステムについて述べる。 私たちのシステムの主な貢献は次のとおりです。 1)多言語NERタスクに対して,単一言語あるいは多言語NERタスクを容易に実行できる統一的なフレームワークを提供する。 2) 低リソースのコード混在NERタスクでは,複数の単純なデータ拡張メソッドを実装することで,データセットを容易に拡張することができる。 3) 中国語タスクに対しては,中国語の語彙意味,語彙境界,語彙グラフ構造情報を抽出できるモデルを提案する。 最後に,テスト段階では,サブタスク11,12,9において,77.66,84.35,74.00のマクロf1スコアを達成する。

This paper describes our system, which placed third in the Multilingual Track (subtask 11), fourth in the Code-Mixed Track (subtask 12), and seventh in the Chinese Track (subtask 9) in the SemEval 2022 Task 11: MultiCoNER Multilingual Complex Named Entity Recognition. Our system's key contributions are as follows: 1) For multilingual NER tasks, we offer an unified framework with which one can easily execute single-language or multilingual NER tasks, 2) for low-resource code-mixed NER task, one can easily enhance his or her dataset through implementing several simple data augmentation methods and 3) for Chinese tasks, we propose a model that can capture Chinese lexical semantic, lexical border, and lexical graph structural information. Finally, our system achieves macro-f1 scores of 77.66, 84.35, and 74.00 on subtasks 11, 12, and 9, respectively, during the testing phase.
翻訳日:2022-04-18 14:43:52 公開日:2022-04-14
# 最悪の場合を超えたスケジューリング機構について

On Scheduling Mechanisms Beyond the Worst Case ( http://arxiv.org/abs/2204.07223v1 )

ライセンス: Link先を確認
Yansong Gao, JIe Zhang(参考訳) 非関連マシンのスケジューリングの問題はアルゴリズム機構設計の開始から研究されている。 これは、実行のために$m$タスクを$n$マシンに割り当てるリソース割り当て問題である。 マシンは、割り当てられたワークロードを最小限にするために、実行コストについて嘘をつく戦略エージェントとみなされる。 機械のコストを補償するオプションではない状況に対処するため、 \citeauthor{DBLP:journals/mst/Ko utsoupias14} [2014] は、社会的コスト最小化のために、それぞれ$\frac{n+1}{2}$と$n$の近似比を達成する2つの \textit{truthful} メカニズム、K と P を考案した。 さらに、真理的なメカニズムは$\frac{n+1}{2}$より近似比を達成できない。 したがって、機構kは最適である。 近似比は最悪のケースを強く保証するが、様々な入力における機構性能の包括的理解にも限界がある。 本稿では, この2つのスケジューリング機構について, 最悪の場合を超えて検討する。 まず,機構kが入力毎のメカニズムpよりも小さな社会的コストを達成することを示す。 次に、各タスク$j$に対して、マシンの実行コスト$t_i^j$がタスク固有の分散$f^j(t)$から独立かつ同一に引き出されるとき、メカニズムkの平均ケース近似比が定数に収束することを示す。 このバウンドはメカニズムkにとって厳密である。この分布依存定数をよりよく理解するために、いくつかの共通分布をプラグインすることでその値を推定する。一方、この収束バウンドは、単一のタスク設定のみをキャプチャする既知のバウンド \cite{dblp:conf/aaai/zhang 18} を改善する。 最後に、メカニズムPの平均ケース近似比が同じ定数に収束していることが分かる。

The problem of scheduling unrelated machines has been studied since the inception of algorithmic mechanism design~\cite{NR99}. It is a resource allocation problem that entails assigning $m$ tasks to $n$ machines for execution. Machines are regarded as strategic agents who may lie about their execution costs so as to minimize their allocated workload. To address the situation when monetary payment is not an option to compensate the machines' costs, \citeauthor{DBLP:journals/mst/Ko utsoupias14} [2014] devised two \textit{truthful} mechanisms, K and P respectively, that achieve an approximation ratio of $\frac{n+1}{2}$ and $n$, for social cost minimization. In addition, no truthful mechanism can achieve an approximation ratio better than $\frac{n+1}{2}$. Hence, mechanism K is optimal. While approximation ratio provides a strong worst-case guarantee, it also limits us to a comprehensive understanding of mechanism performance on various inputs. This paper investigates these two scheduling mechanisms beyond the worst case. We first show that mechanism K achieves a smaller social cost than mechanism P on every input. That is, mechanism K is pointwise better than mechanism P. Next, for each task $j$, when machines' execution costs $t_i^j$ are independent and identically drawn from a task-specific distribution $F^j(t)$, we show that the average-case approximation ratio of mechanism K converges to a constant. This bound is tight for mechanism K. For a better understanding of this distribution dependent constant, on the one hand, we estimate its value by plugging in a few common distributions; on the other, we show that this converging bound improves a known bound \cite{DBLP:conf/aaai/Zhang 18} which only captures the single-task setting. Last, we find that the average-case approximation ratio of mechanism P converges to the same constant.
翻訳日:2022-04-18 12:57:04 公開日:2022-04-14
# 学習アルゴリズムの分布仮定の検証

Testing distributional assumptions of learning algorithms ( http://arxiv.org/abs/2204.07196v1 )

ライセンス: Link先を確認
Ronitt Rubinfeld and Arsen Vasilyan(参考訳) 例の分布に関する強い仮定が可能である場合、例えば領域上のガウス性や一様性など、高速な非依存的学習アルゴリズムを持つ重要な高次元関数類が多数存在する。 しかし、どのようにしてデータが分布的仮定を本当に満たし、無依存な学習アルゴリズムの出力品質を信頼できるという確信を持てるのだろうか? テスト者-学習者対の設計を体系的に研究するためのモデルである $(\mathcal{a},\mathcal{t})$ を提案する。データ内の例の分布がテスト者 $\mathcal{t}$ をパスした場合、データに無知な学習者 $\mathcal{a}$ の出力を安全に信頼することができる。 モデルのパワーを示すために、標準ガウス分布の下で半空間を無知に学習する古典的な問題に適用し、n^{\tilde{o}(1/\epsilon^4)}$の合計実行時間を持つテスタ・リアナー対を示す。 これは、このタスクでよく知られた一般的な非依存学習アルゴリズムと定性的に一致する。 対照的に、有限サンプルガウス分布テスターは$L_1$とEMD距離測度には存在しない。 解析における重要なステップは、ガウス系とほぼ一致する低次モーメントを持つ分布の濃度と反集中特性の新たなキャラクタリゼーションである。 多項式近似理論のツールも使用します。 対照的に,ガウス分布下での無知学習凸集合問題や,$\{0,1\}^n$ の均一分布下での単調ブール関数問題に対して,テスタ・リアナーペアの組合せ実行時間の強い下界を示す。 これらの下位境界を通して、標準非依存の学習実行時間と最高のテスタ-ラーナーペアの実行時間の間に劇的なギャップがあるという自然な問題を示す。

There are many important high dimensional function classes that have fast agnostic learning algorithms when strong assumptions on the distribution of examples can be made, such as Gaussianity or uniformity over the domain. But how can one be sufficiently confident that the data indeed satisfies the distributional assumption, so that one can trust in the output quality of the agnostic learning algorithm? We propose a model by which to systematically study the design of tester-learner pairs $(\mathcal{A},\mathcal{T})$, such that if the distribution on examples in the data passes the tester $\mathcal{T}$ then one can safely trust the output of the agnostic learner $\mathcal{A}$ on the data. To demonstrate the power of the model, we apply it to the classical problem of agnostically learning halfspaces under the standard Gaussian distribution and present a tester-learner pair with a combined run-time of $n^{\tilde{O}(1/\epsilon^4)}$. This qualitatively matches that of the best known ordinary agnostic learning algorithms for this task. In contrast, finite sample Gaussian distribution testers do not exist for the $L_1$ and EMD distance measures. A key step in the analysis is a novel characterization of concentration and anti-concentration properties of a distribution whose low-degree moments approximately match those of a Gaussian. We also use tools from polynomial approximation theory. In contrast, we show strong lower bounds on the combined run-times of tester-learner pairs for the problems of agnostically learning convex sets under the Gaussian distribution and for monotone Boolean functions under the uniform distribution over $\{0,1\}^n$. Through these lower bounds we exhibit natural problems where there is a dramatic gap between standard agnostic learning run-time and the run-time of the best tester-learner pair.
翻訳日:2022-04-18 12:56:06 公開日:2022-04-14
# ノイズプールデータの分散再構成

Distributed Reconstruction of Noisy Pooled Data ( http://arxiv.org/abs/2204.07491v1 )

ライセンス: Link先を確認
Max Hahn-Klimroth and Dominik Kaaser(参考訳) プールされたデータ問題では、$n$エージェントのセットが与えられ、それぞれが$0$または$$$の隠れた状態ビットを保持します。 クエリ手順はクエリセットに対して、クエリされたエージェントの状態の合計を返す。 目標は、できるだけ少ないクエリを使って状態を再構築することだ。 本稿では,プールデータ問題に対する2つのノイズモデルについて考察する。 ノイズチャネルモデルでは、各エージェントに対する結果が、ある確率で反転する。 ノイズの多いクエリモデルでは、各クエリ結果はランダムなガウスノイズを受ける。 私たちの結果は2倍です。 まず, 2つの誤差モデルについて,初期状態を欲張りな方法で再構成する単純かつ効率的な分散アルゴリズムを提示し,解析する。 提案手法は,アルゴリズムが精度の高い正確な初期状態を再構成する誤差確率と分布の範囲を推定する。 次に,本アルゴリズムのシミュレーション結果と,その性能を,多くの関連する問題において最適と推定される近似メッセージパッシング(AMP)アルゴリズムと比較する。

In the pooled data problem we are given a set of $n$ agents, each of which holds a hidden state bit, either $0$ or $1$. A querying procedure returns for a query set the sum of the states of the queried agents. The goal is to reconstruct the states using as few queries as possible. In this paper we consider two noise models for the pooled data problem. In the noisy channel model, the result for each agent flips with a certain probability. In the noisy query model, each query result is subject to random Gaussian noise. Our results are twofold. First, we present and analyze for both error models a simple and efficient distributed algorithm that reconstructs the initial states in a greedy fashion. Our novel analysis pins down the range of error probabilities and distributions for which our algorithm reconstructs the exact initial states with high probability. Secondly, we present simulation results of our algorithm and compare its performance with approximate message passing (AMP) algorithms that are conjectured to be optimal in a number of related problems.
翻訳日:2022-04-18 12:52:46 公開日:2022-04-14
# 安定かつ正確なcp分解のための交互マハラノビス距離最小化

Alternating Mahalanobis Distance Minimization for Stable and Accurate CP Decomposition ( http://arxiv.org/abs/2204.07208v1 )

ライセンス: Link先を確認
Navjot Singh, Edgar Solomonik(参考訳) CP分解(CPD)は、化学、信号処理、データマイニング、その他多くの分野で広く使われている。 cpdを計算するために多くのアルゴリズムが提案されているが、交互最小二乗 (als) は分解を計算するために最も広く使われているアルゴリズムの1つである。 近年の研究ではテンソルの固有値と特異値の概念を導入し、信号処理、データ解析、その他の分野における固有ベクトルと特異ベクトルの応用を探求している。 本稿では, テンソルの特異値とベクトルを導出するための新しい定式化を導入する。 これらの臨界点を交互に計算することで、行列の場合の最小二乗アルゴリズムに対応する交互最適化アルゴリズムを動機付ける。 しかし、次数が 3$ より大きいテンソルに対しては、一般に使用される最小二乗損失とは異なる目的関数を最小化する。 この新たな目的の代替最適化は、ALSと同じ漸近計算コストで、因子行列の簡単な更新につながる。 このアルゴリズムのサブスウィープは、既知のランクの正確なcpdに対する超線形収束率を達成でき、実験的に検証できることを示す。 すると、アルゴリズムは各因子に対するマハラノビス距離を最適化するものであり、基底距離は他の因子に依存する。 この視点により、alsに対応する更新と、分解の安定性と適合性の間のトレードオフを管理する新しいアルゴリズムの間を補間するアプローチを一般化できる。 実験の結果,合成テンソルと実世界のテンソルを近似するために,このアルゴリズムとその変種は,alsアルゴリズムと同等で時には適合性が高い条件付き分解に収束することが示された。

CP decomposition (CPD) is prevalent in chemometrics, signal processing, data mining and many more fields. While many algorithms have been proposed to compute the CPD, alternating least squares (ALS) remains one of the most widely used algorithm for computing the decomposition. Recent works have introduced the notion of eigenvalues and singular values of a tensor and explored applications of eigenvectors and singular vectors in areas like signal processing, data analytics and in various other fields. We introduce a new formulation for deriving singular values and vectors of a tensor by considering the critical points of a function different from what is used in the previous work. Computing these critical points in an alternating manner motivates an alternating optimization algorithm which corresponds to alternating least squares algorithm in the matrix case. However, for tensors with order greater than equal to $3$, it minimizes an objective function which is different from the commonly used least squares loss. Alternating optimization of this new objective leads to simple updates to the factor matrices with the same asymptotic computational cost as ALS. We show that a subsweep of this algorithm can achieve a superlinear convergence rate for exact CPD with known rank and verify it experimentally. We then view the algorithm as optimizing a Mahalanobis distance with respect to each factor with ground metric dependent on the other factors. This perspective allows us to generalize our approach to interpolate between updates corresponding to the ALS and the new algorithm to manage the tradeoff between stability and fitness of the decomposition. Our experimental results show that for approximating synthetic and real-world tensors, this algorithm and its variants converge to a better conditioned decomposition with comparable and sometimes better fitness as compared to the ALS algorithm.
翻訳日:2022-04-18 12:51:58 公開日:2022-04-14
# 非定常連続フィルタによる緩和等分散制約

Relaxing Equivariance Constraints with Non-stationary Continuous Filters ( http://arxiv.org/abs/2204.07178v1 )

ライセンス: Link先を確認
Tycho F.A. van der Ouderaa, David W. Romero, Mark van der Wilk(参考訳) 等価性はニューラルネットワークモデリングにおいて有用な帰納バイアスを与え、畳み込みニューラルネットワークの変換等価性は標準的な例である。 等価性は、重み共有を通じてアーキテクチャに埋め込まれ、ニューラルネットワークが表現できる関数に対称性の制約を課すことができる。 対称性のタイプは通常固定されており、事前に選択する必要がある。 いくつかのタスクは本質的に同変であるが、多くのタスクはそのような対称性に厳密に従わない。 そのような場合、等分散制約は過度に制限される。 本研究では,a間に効果的に補間できるパラメータ効率の良い等分散緩和法を提案する。 (i)非同変線型積 (ii)厳密な同値な畳み込み、 (iii)厳密な不変写像。 提案したパラメータ化は、ニューラルネットワークの調整可能な対称性構造を可能にするビルディングブロックと考えることができる。 CIFAR-10 および CIFAR-100 画像分類タスクにおいて, ソフトな等式が試験精度の向上につながることを実験的に検証した。

Equivariances provide useful inductive biases in neural network modeling, with the translation equivariance of convolutional neural networks being a canonical example. Equivariances can be embedded in architectures through weight-sharing and place symmetry constraints on the functions a neural network can represent. The type of symmetry is typically fixed and has to be chosen in advance. Although some tasks are inherently equivariant, many tasks do not strictly follow such symmetries. In such cases, equivariance constraints can be overly restrictive. In this work, we propose a parameter-efficient relaxation of equivariance that can effectively interpolate between a (i) non-equivariant linear product, (ii) a strict-equivariant convolution, and (iii) a strictly-invariant mapping. The proposed parameterization can be thought of as a building block to allow adjustable symmetry structure in neural networks. Compared to non-equivariant or strict-equivariant baselines, we experimentally verify that soft equivariance leads to improved performance in terms of test accuracy on CIFAR-10 and CIFAR-100 image classification tasks.
翻訳日:2022-04-18 12:20:08 公開日:2022-04-14
# 多目的最適化のための正規・ペナルティ境界交差点を統合した協調分解型進化アルゴリズム

A collaborative decomposition-based evolutionary algorithm integrating normal and penalty-based boundary intersection for many-objective optimization ( http://arxiv.org/abs/2204.07176v1 )

ライセンス: Link先を確認
Yu Wu, Jianle Wei, Weiqin Ying, Yanqi Lan, Zhen Cui, Zhenyu Wang(参考訳) 分解に基づく進化的アルゴリズムは近年多目的最適化にかなり人気がある。 しかし、既存の分解法はまだ多目的最適化問題(MaOP)のフロンティアの様々な形状に非常に敏感である。 一方、ペナルティベース境界交差点(pbi)のような円錐分解法は、非常に凸な辺境を持つmaopsの均一なフロンティアを取得することができない。 一方, 標準境界交点(NBI)を含む並列分解手法の並列参照線は, 凹面フロンティアを持つMaOPの境界付近でのアンダーサンプリングにより, 多様性が低下する可能性がある。 本稿では, 並列分解とコーン分解の利点を統合し, それぞれの欠点を克服するために, 協調分解法を最初に提案する。 この方法は、pbi法分布の収束性と一様性を高める収束測度としてnbi型チェビチェフ関数を継承する。 さらに、サブプロブレム毎に、NBI基準線をPBI基準線に向けて回転させる範囲を適応的に調整し、NBI法の分布の多様性を高める。 さらに,多目的最適化のために協調分解型進化アルゴリズム(codea)を提案する。 コラボレーティブな分解に基づく環境選択機構は、主にCoDEAにおいて、境界層内の同じPBI基準線に関連付けられたすべての個人をランク付けし、最高のランクを選択するために設計されている。 CoDEAは85のベンチマークテストインスタンスで人気のアルゴリズムと比較される。 実験結果から,CoDEAはコンバージェンス,均一性,分散の多様性のバランスを良好に保ちながら,協調的分解による高い競争性を達成することが示された。

Decomposition-based evolutionary algorithms have become fairly popular for many-objective optimization in recent years. However, the existing decomposition methods still are quite sensitive to the various shapes of frontiers of many-objective optimization problems (MaOPs). On the one hand, the cone decomposition methods such as the penalty-based boundary intersection (PBI) are incapable of acquiring uniform frontiers for MaOPs with very convex frontiers. On the other hand, the parallel reference lines of the parallel decomposition methods including the normal boundary intersection (NBI) might result in poor diversity because of under-sampling near the boundaries for MaOPs with concave frontiers. In this paper, a collaborative decomposition method is first proposed to integrate the advantages of parallel decomposition and cone decomposition to overcome their respective disadvantages. This method inherits the NBI-style Tchebycheff function as a convergence measure to heighten the convergence and uniformity of distribution of the PBI method. Moreover, this method also adaptively tunes the extent of rotating an NBI reference line towards a PBI reference line for every subproblem to enhance the diversity of distribution of the NBI method. Furthermore, a collaborative decomposition-based evolutionary algorithm (CoDEA) is presented for many-objective optimization. A collaborative decomposition-based environmental selection mechanism is primarily designed in CoDEA to rank all the individuals associated with the same PBI reference line in the boundary layer and pick out the best ranks. CoDEA is compared with several popular algorithms on 85 benchmark test instances. The experimental results show that CoDEA achieves high competitiveness benefiting from the collaborative decomposition maintaining a good balance among the convergence, uniformity, and diversity of distribution.
翻訳日:2022-04-18 12:19:19 公開日:2022-04-14
# multi-view echocardiography を用いた早期心筋梗塞診断の試み

Early Myocardial Infarction Detection with One-Class Classification over Multi-view Echocardiography ( http://arxiv.org/abs/2204.07253v1 )

ライセンス: Link先を確認
Aysen Degerli, Fahad Sohrab, Serkan Kiranyaz, and Moncef Gabbouj(参考訳) 心筋梗塞 (MI) は世界の死亡率と死亡率の主要な原因である。 MIの初期治療は、さらなる心筋壊死を防ぐことができる。 心エコー法はMIの初期の徴候を明らかにする基本的な画像診断技術である。 しかし、MI検出のためのエコー心電図データセットの不足は、データ駆動分類アルゴリズムのトレーニングにおいて大きな問題である。 本研究では,one-class classification (occ) を用いた多視点心エコー法によるmi早期検出手法を提案する。 OCCテクニックは、特定のカテゴリからのみインスタンスを使用して特定のターゲットクラスを検出するモデルをトレーニングするために使用される。 260種類の心エコー図記録において,apical 4-chamber (a4c) とapical 2-chamber (a2c) を含む hmc-qu データセットを用いて,提案フレームワークにおける単変量および多変量1クラス分類手法の使用について検討した。 実験の結果、マルチモーダルアプローチは感度85.23%、f1-score80.21%を達成した。

Myocardial infarction (MI) is the leading cause of mortality and morbidity in the world. Early therapeutics of MI can ensure the prevention of further myocardial necrosis. Echocardiography is the fundamental imaging technique that can reveal the earliest sign of MI. However, the scarcity of echocardiographic datasets for the MI detection is the major issue for training data-driven classification algorithms. In this study, we propose a framework for early detection of MI over multi-view echocardiography that leverages one-class classification (OCC) techniques. The OCC techniques are used to train a model for detecting a specific target class using instances from that particular category only. We investigated the usage of uni-modal and multi-modal one-class classification techniques in the proposed framework using the HMC-QU dataset that includes apical 4-chamber (A4C) and apical 2-chamber (A2C) views in a total of 260 echocardiography recordings. Experimental results show that the multi-modal approach achieves a sensitivity level of 85.23% and F1-Score of 80.21%.
翻訳日:2022-04-18 12:17:17 公開日:2022-04-14
# 動きデブラリングのための空間変化画素露光学習

Learning Spatially Varying Pixel Exposures for Motion Deblurring ( http://arxiv.org/abs/2204.07267v1 )

ライセンス: Link先を確認
Cindy M. Nguyen, Julien N.P. Martel, Gordon Wetzstein(参考訳) 撮影画像におけるカメラの揺れや物体の動きによって引き起こされる動きのぼかしを計算的に除去することは、計算写真では難しい課題である。 分解法は、画像キャプチャプロセスの固定されたグローバル露光時間によって制限されることが多い。 ポストプロセッシングアルゴリズムは、比較的小さなノイズを含むより長い露光を損なうか、または、ノイズの増加のコストで意図的にぼやける機会を取り除く短い露光を損なう必要がある。 本稿では,次世代の焦点平面センサプロセッサを用いて,空間的に変化する画素露光を利用する新しい手法と,これらの露光をエンドツーエンドに設計する手法と,機械学習に基づくモーション露光フレームワークを提案する。 我々は,空間的に異なるピクセル露光(L-SVPE)を学習した物理プロトタイプをシミュレーションで実証し,高頻度の詳細を再現しながら,シーンの劣化を再現できることを示した。 我々の研究は、未来のコンピュータイメージングにおいて、焦点面センサー-プロセッサが果たすべき役割を説明している。

Computationally removing the motion blur introduced by camera shake or object motion in a captured image remains a challenging task in computational photography. Deblurring methods are often limited by the fixed global exposure time of the image capture process. The post-processing algorithm either must deblur a longer exposure that contains relatively little noise or denoise a short exposure that intentionally removes the opportunity for blur at the cost of increased noise. We present a novel approach of leveraging spatially varying pixel exposures for motion deblurring using next-generation focal-plane sensor--processors along with an end-to-end design of these exposures and a machine learning--based motion-deblurring framework. We demonstrate in simulation and a physical prototype that learned spatially varying pixel exposures (L-SVPE) can successfully deblur scenes while recovering high frequency detail. Our work illustrates the promising role that focal-plane sensor--processors can play in the future of computational imaging.
翻訳日:2022-04-18 12:16:58 公開日:2022-04-14
# ビデオ質問応答における構成整合性の測定

Measuring Compositional Consistency for Video Question Answering ( http://arxiv.org/abs/2204.07190v1 )

ライセンス: Link先を確認
Mona Gandhi, Mustafa Omer Gul, Eva Prakash, Madeleine Grunde-McLaughlin, Ranjay Krishna and Maneesh Agrawala(参考訳) 最近のビデオ質問応答ベンチマークは、最先端のモデルが構成的質問に答えるのに苦労していることを示している。 しかし、どの種類の構成的推論がモデルを誤予測させるかは定かではない。 さらに、構成的推論を用いてモデルが回答に到達するか、あるいはデータのバイアスを利用して判断することは困難である。 本稿では,合成質問を部分質問の有向非巡回グラフにプログラム的に分解する質問分解エンジンを開発した。 グラフは、それぞれの親の質問がその子供の構成であるように設計されている。 AGQA-Decompは、2.3M$の質問グラフを含むベンチマークで、グラフごとの平均11.49$のサブクエストと4.55M$の新たなサブクエストがある。 質問グラフを用いて,新しい構成整合性指標を用いて,最先端の3つのモデルを評価する。 モデルは、ほとんどの構成で正しく推論できないか、あるいは不正確な推論に頼り、しばしば矛盾し、中間的な推論ステップで失敗すると高い確率に達することが分かる。

Recent video question answering benchmarks indicate that state-of-the-art models struggle to answer compositional questions. However, it remains unclear which types of compositional reasoning cause models to mispredict. Furthermore, it is difficult to discern whether models arrive at answers using compositional reasoning or by leveraging data biases. In this paper, we develop a question decomposition engine that programmatically deconstructs a compositional question into a directed acyclic graph of sub-questions. The graph is designed such that each parent question is a composition of its children. We present AGQA-Decomp, a benchmark containing $2.3M$ question graphs, with an average of $11.49$ sub-questions per graph, and $4.55M$ total new sub-questions. Using question graphs, we evaluate three state-of-the-art models with a suite of novel compositional consistency metrics. We find that models either cannot reason correctly through most compositions or are reliant on incorrect reasoning to reach answers, frequently contradicting themselves or achieving high accuracies when failing at intermediate reasoning steps.
翻訳日:2022-04-18 11:22:10 公開日:2022-04-14
# PLGAN: 航空画像における電力線分割のための生成逆ネットワーク

PLGAN: Generative Adversarial Networks for Power-Line Segmentation in Aerial Images ( http://arxiv.org/abs/2204.07243v1 )

ライセンス: Link先を確認
Rabab Abdelfattah, Xiaofeng Wang, Song Wang(参考訳) 様々な空中画像における電力線の正確なセグメンテーションは、UAVの飛行安全にとって非常に重要である。 しかし、複雑な背景と非常に薄い電力線構造は、コンピュータビジョンにおいて本質的に困難である。 本稿では,異なる背景を持つ空中画像から電力線を分割する,生成的敵ネットワークに基づく簡易かつ効果的なPLGANを提案する。 敵ネットワークを直接使用してセグメンテーションを生成する代わりに、特定のデコード機能を用いて、パワーラインのコンテキスト、幾何学、外観情報を考慮し、別のセグメンテーションネットワークに組み込む。 さらに,高品質な特徴埋め込みのために生成された画像の適切な形式を活用し,ハフ変換パラメータ空間における新たな損失関数を定義し,非常に薄い電力線のセグメンテーションを強化する。 包括的実験と包括的解析により,提案したPLGANは,セマンティックセグメンテーションや線検出の最先端手法よりも優れていることが示された。

Accurate segmentation of power lines in various aerial images is very important for UAV flight safety. The complex background and very thin structures of power lines, however, make it an inherently difficult task in computer vision. This paper presents PLGAN, a simple yet effective method based on generative adversarial networks, to segment power lines from aerial images with different backgrounds. Instead of directly using the adversarial networks to generate the segmentation, we take their certain decoding features and embed them into another semantic segmentation network by considering more context, geometry, and appearance information of power lines. We further exploit the appropriate form of the generated images for high-quality feature embedding and define a new loss function in the Hough-transform parameter space to enhance the segmentation of very thin power lines. Extensive experiments and comprehensive analysis demonstrate that our proposed PLGAN outperforms the prior state-of-the-art methods for semantic segmentation and line detection.
翻訳日:2022-04-18 11:21:50 公開日:2022-04-14
# (参考訳) ランクの公平性に対する一般化されたジーニ指標の最適化 [全文訳有]

Optimizing generalized Gini indices for fairness in rankings ( http://arxiv.org/abs/2204.06521v2 )

ライセンス: CC BY 4.0
Virginie Do and Nicolas Usunier(参考訳) 商品生産者や未満足のユーザを公平に対象とするレコメンデーションシステムの設計への関心が高まっている。 経済学における不平等測定の領域に触発された本論文では,推奨システムが最適化すべき規範的基準を特定する手段として,一般化されたジニ福祉機能(GGF)の利用について検討する。 GGFは人口の階級によって個人を重くし、平等を促進するために悪質な個人に重みを与える。 これらの重みによって、GGFはアイテム露光のギニ指数を最小化し、アイテム間の平等を促進したり、満足度の低い特定の量子化に注目する。 ランク付けのためのGGFは、差別化できないため最適化が難しい。 我々は,微分可能ソートに使用される非スムース最適化と投影演算子のツールを活用することで,この課題を解決した。 提案手法は,最大15万のユーザとアイテムの実際のデータセットを用いて実験を行い,様々なレコメンデーションタスクや公正基準のベースラインよりも優れたトレードオフが得られることを示す。

There is growing interest in designing recommender systems that aim at being fair towards item producers or their least satisfied users. Inspired by the domain of inequality measurement in economics, this paper explores the use of generalized Gini welfare functions (GGFs) as a means to specify the normative criterion that recommender systems should optimize for. GGFs weight individuals depending on their ranks in the population, giving more weight to worse-off individuals to promote equality. Depending on these weights, GGFs minimize the Gini index of item exposure to promote equality between items, or focus on the performance on specific quantiles of least satisfied users. GGFs for ranking are challenging to optimize because they are non-differentiable. We resolve this challenge by leveraging tools from non-smooth optimization and projection operators used in differentiable sorting. We present experiments using real datasets with up to 15k users and items, which show that our approach obtains better trade-offs than the baselines on a variety of recommendation tasks and fairness criteria.
翻訳日:2022-04-17 08:39:12 公開日:2022-04-14
# (参考訳) 単語埋め込みは単語のリズミカルな類似性を捉えることができる [全文訳有]

Word Embeddings Are Capable of Capturing Rhythmic Similarity of Words ( http://arxiv.org/abs/2204.04833v2 )

ライセンス: CC BY 4.0
Hosein Rezaei(参考訳) Word2VecやGloVeのような単語埋め込みシステムは、NLPに対するディープラーニングアプローチでよく知られている。 これは主に、単語間の意味的関係を捉える能力による。 本研究では,単語のリズム的類似性を捉える上での有用性について検討した。 その結果、これらの埋め込みが押韻語に割り当てられるベクトルは、他の単語と比較して互いに類似していることが示された。 また、この点に関してGloVeはWord2Vecよりも比較的優れていることも明らかにされている。 また,一対の単語のリズミカルな類似性を定量化するための最初の指標を提案した。

Word embedding systems such as Word2Vec and GloVe are well-known in deep learning approaches to NLP. This is largely due to their ability to capture semantic relationships between words. In this work we investigated their usefulness in capturing rhythmic similarity of words instead. The results show that vectors these embeddings assign to rhyming words are more similar to each other, compared to the other words. It is also revealed that GloVe performs relatively better than Word2Vec in this regard. We also proposed a first of its kind metric for quantifying rhythmic similarity of a pair of words.
翻訳日:2022-04-16 09:36:47 公開日:2022-04-14
# (参考訳) 不確実性を持つ機械学習の現状 [全文訳有]

Machine Learning State-of-the-Art with Uncertainties ( http://arxiv.org/abs/2204.05173v2 )

ライセンス: CC BY 4.0
Peter Steinbach, Felicita Gernhardt, Mahnoor Tanveer, Steve Schmerler, Sebastian Starke(参考訳) データ、ハードウェア、ソフトウェアエコシステム、関連するスキルセットの可用性により、機械学習コミュニティは、新しいアーキテクチャとアプローチが毎年頻繁に現れるように、急速に発展している。 本稿では,精度測定に関わる信頼区間が,研究成果のコミュニケーションを著しく促進し,レビュープロセスに影響を及ぼすことを示すために,例示的な画像分類研究を行う。 さらに,この近似の目印と限界についても検討する。 我々は、ICLR22のスポットライト公開を反映したこのアプローチの関連性について論じる。 この出版物のオープンソース随伴者として再現可能なワークフローが利用可能である。 この議論に基づいて,機械学習論文の執筆・レビュープロセスを改善するための提案を行う。

With the availability of data, hardware, software ecosystem and relevant skill sets, the machine learning community is undergoing a rapid development with new architectures and approaches appearing at high frequency every year. In this article, we conduct an exemplary image classification study in order to demonstrate how confidence intervals around accuracy measurements can greatly enhance the communication of research results as well as impact the reviewing process. In addition, we explore the hallmarks and limitations of this approximation. We discuss the relevance of this approach reflecting on a spotlight publication of ICLR22. A reproducible workflow is made available as an open-source adjoint to this publication. Based on our discussion, we make suggestions for improving the authoring and reviewing process of machine learning articles.
翻訳日:2022-04-16 09:08:42 公開日:2022-04-14
# (参考訳) ViViD++: 可視性データセットのビジョン [全文訳有]

ViViD++: Vision for Visibility Dataset ( http://arxiv.org/abs/2204.06183v2 )

ライセンス: CC BY 4.0
Alex Junho Lee, Younggun Cho, Young-sik Shin, Ayoung Kim, Hyun Myung(参考訳) 本稿では,様々な輝度条件を対象とする多彩な視覚データ形式をキャプチャするデータセットを提案する。 RGBカメラはノイズ除去と直感的な情報を提供するが、照明条件の変化は視覚センサーに基づくロボットアプリケーションにとって破滅的な失敗をもたらす可能性がある。 照明問題を克服するアプローチとしては、より堅牢なアルゴリズムやサーマルカメラやイベントカメラなどの視覚センサーの開発がある。 代替センサーの可能性にもかかわらず、代替視覚センサーを備えたデータセットはまだ少ない。 そこで我々は,車載やハンドヘルドなどの代替視覚センサから記録されたデータセットを,同じ空間で繰り返し,異なる条件で提供した。 我々は,協調型視覚センサから可視情報を取得することを目指している。 センサシステムは、赤外放射量、構造反射による深度、輝度の瞬時変化を測定することで、可視光強度とは独立してデータを収集する。 これらの測定結果と慣性センサーと接地構造を併用し, 照明不良下でのロバストな視力SLAMの開発を行う。 完全なデータセットは、https://visibilityda taset.github.io/で入手できる。

In this paper, we present a dataset capturing diverse visual data formats that target varying luminance conditions. While RGB cameras provide nourishing and intuitive information, changes in lighting conditions potentially result in catastrophic failure for robotic applications based on vision sensors. Approaches overcoming illumination problems have included developing more robust algorithms or other types of visual sensors, such as thermal and event cameras. Despite the alternative sensors' potential, there still are few datasets with alternative vision sensors. Thus, we provided a dataset recorded from alternative vision sensors, by handheld or mounted on a car, repeatedly in the same space but in different conditions. We aim to acquire visible information from co-aligned alternative vision sensors. Our sensor system collects data more independently from visible light intensity by measuring the amount of infrared dissipation, depth by structured reflection, and instantaneous temporal changes in luminance. We provide these measurements along with inertial sensors and ground-truth for developing robust visual SLAM under poor illumination. The full dataset is available at: https://visibilityda taset.github.io/
翻訳日:2022-04-16 08:34:24 公開日:2022-04-14
# (参考訳) モノラル音声合成のための時間畳み込みネットワークの知覚場解析 [全文訳有]

Receptive Field Analysis of Temporal Convolutional Networks for Monaural Speech Dereverberation ( http://arxiv.org/abs/2204.06439v2 )

ライセンス: CC BY 4.0
William Ravenscroft, Stefan Goetze, Thomas Hain(参考訳) 発声残響は頑健な音声処理タスクにおいてしばしば重要な要件である。 Supervised Deep Learning(DL)モデルは、単一チャネル音声の残響に対する最先端のパフォーマンスを提供する。 時間畳み込みネットワーク(TCN)は、音声強調タスクのシーケンスモデリングに一般的に使用される。 TCNの特徴は、個々の出力フレームを生成するために観測できる入力フレームの数を決定する特定のモデル構成に依存して、受容野(RF)を持つことである。 tcnはシミュレーション音声データの非残響化が可能であることが示されているが、特にrfに焦点をあてた詳細な分析は文献にはまだ欠けている。 本稿では,TCNのモデルサイズとRFによる残響特性の解析を行う。 より大きなT60値を持つ室インパルス応答(RIR)を含むように拡張されたWHAMRコーパスを用いた実験では、より小さなTNモデルのトレーニングにおいて、より大きなRFが大幅な性能向上を示す。 また、RT60値が大きいRIRを除去する場合、TNはより広いRFの恩恵を受けることが示されている。

Speech dereverberation is often an important requirement in robust speech processing tasks. Supervised deep learning (DL) models give state-of-the-art performance for single-channel speech dereverberation. Temporal convolutional networks (TCNs) are commonly used for sequence modelling in speech enhancement tasks. A feature of TCNs is that they have a receptive field (RF) dependant on the specific model configuration which determines the number of input frames that can be observed to produce an individual output frame. It has been shown that TCNs are capable of performing dereverberation of simulated speech data, however a thorough analysis, especially with focus on the RF is yet lacking in the literature. This paper analyses dereverberation performance depending on the model size and the RF of TCNs. Experiments using the WHAMR corpus which is extended to include room impulse responses (RIRs) with larger T60 values demonstrate that a larger RF can have significant improvement in performance when training smaller TCN models. It is also demonstrated that TCNs benefit from a wider RF when dereverberating RIRs with larger RT60 values.
翻訳日:2022-04-16 08:20:21 公開日:2022-04-14
# (参考訳) WSSS4LUAD : 肺腺癌に対する弱温存組織分節手術のグランドチャレンジ [全文訳有]

WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic Segmentation for Lung Adenocarcinoma ( http://arxiv.org/abs/2204.06455v2 )

ライセンス: CC BY 4.0
Chu Han, Xipeng Pan, Lixu Yan, Huan Lin, Bingbing Li, Su Yao, Shanshan Lv, Zhenwei Shi, Jinhai Mai, Jiatai Lin, Bingchao Zhao, Zeyan Xu, Zhizhen Wang, Yumeng Wang, Yuan Zhang, Huihui Wang, Chao Zhu, Chunhui Lin, Lijian Mao, Min Wu, Luwen Duan, Jingsong Zhu, Dong Hu, Zijie Fang, Yang Chen, Yongbing Zhang, Yi Li, Yiwen Zou, Yiduo Yu, Xiaomeng Li, Haiming Li, Yanfen Cui, Guoqiang Han, Yan Xu, Jun Xu, Huihua Yang, Chunming Li, Zhenbing Liu, Cheng Lu, Xin Chen, Changhong Liang, Qingling Zhang, Zaiyi Liu(参考訳) 肺がんは世界中でがん死の主要な原因であり、腺癌(LUAD)は最も一般的な亜型である。 病理像の潜在的価値をエクスプロイトすることは、腫瘍学における精密医療を促進することができる。 組織分割は病理組織画像解析の基本的な上流課題である。 既存のディープラーニングモデルはセグメンテーション性能が優れているが、十分なピクセルレベルのアノテーションが必要である。 LUADのラベル資源を充実させ,アノテーションの取り組みを緩和するために,この挑戦を組織し,LUADの病理組織像に対する弱い教師付きセマンティックセマンティックセグメンテーション(WSSS)技術を求める。 参加者は、パッチレベルラベルのみの腫瘍上皮、腫瘍関連ストローマおよび正常組織を分割するアルゴリズムを設計する必要がある。 この課題には10,091のパッチレベルアノテーション(トレーニングセット)と1億3000万以上のラベル付きピクセル(検証とテストセット)が含まれており、87 WSI(GDPHから67、TCGAから20)からである。 すべてのラベルは、aiモデルの助けを借りて、病理学者がループ内パイプラインで生成し、ラベルレビューボードによってチェックされた。 532の登録のうち、28のチームが1000以上の応募でテストフェーズの結果を提出した。 最後に、第1チームは0.8413(腫瘍: 0.8389、ストローマ: 0.7931、正常: 0.8919)のmiouを達成した。 トップクラスのチームの技術報告によると、依然としてCAMはWSSSで最も人気のあるアプローチである。 より信頼性の高いサンプルを生成するために、カットミックスデータ拡張が広く採用されている。 この課題の成功により、パッチレベルのアノテーションによるWSSSアプローチは、アノテーションの労力を減らしながら、従来のピクセルアノテーションを補完できると信じています。 LUADの計算病理学と、より新しいWSSS技術の研究を促進するために、データセット全体がリリースされた。

Lung cancer is the leading cause of cancer death worldwide, and adenocarcinoma (LUAD) is the most common subtype. Exploiting the potential value of the histopathology images can promote precision medicine in oncology. Tissue segmentation is the basic upstream task of histopathology image analysis. Existing deep learning models have achieved superior segmentation performance but require sufficient pixel-level annotations, which is time-consuming and expensive. To enrich the label resources of LUAD and to alleviate the annotation efforts, we organize this challenge WSSS4LUAD to call for the outstanding weakly-supervised semantic segmentation (WSSS) techniques for histopathology images of LUAD. Participants have to design the algorithm to segment tumor epithelial, tumor-associated stroma and normal tissue with only patch-level labels. This challenge includes 10,091 patch-level annotations (the training set) and over 130 million labeled pixels (the validation and test sets), from 87 WSIs (67 from GDPH, 20 from TCGA). All the labels were generated by a pathologist-in-the-l oop pipeline with the help of AI models and checked by the label review board. Among 532 registrations, 28 teams submitted the results in the test phase with over 1,000 submissions. Finally, the first place team achieved mIoU of 0.8413 (tumor: 0.8389, stroma: 0.7931, normal: 0.8919). According to the technical reports of the top-tier teams, CAM is still the most popular approach in WSSS. Cutmix data augmentation has been widely adopted to generate more reliable samples. With the success of this challenge, we believe that WSSS approaches with patch-level annotations can be a complement to the traditional pixel annotations while reducing the annotation efforts. The entire dataset has been released to encourage more researches on computational pathology in LUAD and more novel WSSS techniques.
翻訳日:2022-04-16 08:08:51 公開日:2022-04-14
# (参考訳) MINSU (Mobile Inventory and Scanning Unit):コンピュータビジョンとAI [全文訳有]

MINSU (Mobile Inventory And Scanning Unit):Computer Vision and AI ( http://arxiv.org/abs/2204.06681v1 )

ライセンス: CC BY 4.0
Jihoon Ryoo, Byungkon Kang, Dongyeob Lee, Seunghyeon Kim, Youngho Kim(参考訳) MINSU(Mobile Inventory and Scanning Unit)アルゴリズムは計算ビジョン解析法を用いてキャビネットの残量/全量を記録する。 そのために、オブジェクト検出、フォアグラウンドサブトラクション、K平均クラスタリング、パーセンテージ推定、カウントという5段階の手法を踏襲する。 入力画像はオブジェクト検出法を通し、座標の点からキャビネットの特定位置を分析する。 その後、背景を取り除き、画像がキャビネット自体により焦点を絞れるようにするために、フォアグラウンドサブトラクション方式を踏襲する(アルゴリズムによってカットされていない部分を選択するなど、いくつかの手作業を行う必要がある)。 K平均クラスタリング法では、マルチカラー画像はより高速で正確な解析のために3色の単調画像となる。 最終的に、画像はパーセンテージの推定とカウントを経る。 この2つの方法では、キャビネット内の材料の割合がパーセンテージで示され、それが内部の材料数を近似するために使用される。 もしこのプロジェクトが成功すれば、残量管理は導入当初の問題を解決することができる。

The MINSU(Mobile Inventory and Scanning Unit) algorithm uses the computational vision analysis method to record the residual quantity/fullness of the cabinet. To do so, it goes through a five-step method: object detection, foreground subtraction, K-means clustering, percentage estimation, and counting. The input image goes through the object detection method to analyze the specific position of the cabinets in terms of coordinates. After doing so, it goes through the foreground subtraction method to make the image more focus-able to the cabinet itself by removing the background (some manual work may have to be done such as selecting the parts that were not grab cut by the algorithm). In the K-means clustering method, the multi-colored image turns into a 3 colored monotonous image for quicker and more accurate analysis. At last, the image goes through percentage estimation and counting. In these two methods, the proportion that the material inside the cabinet is found in percentage which then is used to approximate the number of materials inside. Had this project been successful, the residual quantity management could solve the problem addressed earlier in the introduction.
翻訳日:2022-04-16 02:52:28 公開日:2022-04-14
# (参考訳) gm-tounn:ニューラルネットワークを用いたグレードドドマルチスケールトポロジ最適化 [全文訳有]

GM-TOuNN: Graded Multiscale Topology Optimization using Neural Networks ( http://arxiv.org/abs/2204.06682v1 )

ライセンス: CC BY 4.0
Aaditya Chandrasekhar, Saketh Sridhara, Krishnan Suresh(参考訳) マルチスケールトポロジ最適化(M-TO)は、物理制約問題に対して最適な大域的トポロジと、より小さなスケールで最適なマイクロ構造を生成する。 添加物製造の出現により、M-TOは著しく有名になった。 しかし、様々な場所で最適なマイクロ構造を生成するのは非常にコストがかかる。 1つ以上の事前選択された(パラメータ化された)マイクロ構造トポロジを用いてドメインを最適に埋める、別のグレード付きマルチスケールトポロジ最適化(GM-TO)が提案されている。 これにより、M-TOの利点の多くを保ちながら、計算量が大幅に削減される。 GM-TO フレームワークを成功させるには,(1) 多数の事前選択されたマイクロ構造を効率的に処理でき,(2) 最適化中に連続的にこれらのマイクロ構造を切り替えることができること,(3) ユニティの分割が満足されること,(4) 終了時にマイクロ構造が混合されないこと,などが必要である。 本稿では,ニューラルネットワークのユニークな分類能力を利用して,これらの要件を満たすことを提案する。 具体的には, ニューラルネットワーク (GM-TOuNN) フレームワークを用いた段階的マルチスケールトポロジー最適化を提案する。(1) 設計変数の数は, 予め選択したマイクロ構造の数にのみ依存し, (2) マイクロ構造混合を阻害しながらユニティの分割を保証し, (3) 自動微分をサポートし, 手動感度解析を不要にする。 提案するフレームワークについては,いくつかの例を挙げる。

Multiscale topology optimization (M-TO) entails generating an optimal global topology, and an optimal set of microstructures at a smaller scale, for a physics-constrained problem. With the advent of additive manufacturing, M-TO has gained significant prominence. However, generating optimal microstructures at various locations can be computationally very expensive. As an alternate, graded multiscale topology optimization (GM-TO) has been proposed where one or more pre-selected and graded (parameterized) microstructural topologies are used to fill the domain optimally. This leads to a significant reduction in computation while retaining many of the benefits of M-TO. A successful GM-TO framework must: (1) be capable of efficiently handling numerous pre-selected microstructures, (2) be able to continuously switch between these microstructures during optimization, (3) ensure that the partition of unity is satisfied, and (4) discourage microstructure mixing at termination. In this paper, we propose to meet these requirements by exploiting the unique classification capacity of neural networks. Specifically, we propose a graded multiscale topology optimization using neural-network (GM-TOuNN) framework with the following features: (1) the number of design variables is only weakly dependent on the number of pre-selected microstructures, (2) it guarantees partition of unity while discouraging microstructure mixing, and (3) it supports automatic differentiation, thereby eliminating manual sensitivity analysis. The proposed framework is illustrated through several examples.
翻訳日:2022-04-16 02:45:36 公開日:2022-04-14
# (参考訳) 長文分類のための変圧器モデルの再検討 [全文訳有]

Revisiting Transformer-based Models for Long Document Classification ( http://arxiv.org/abs/2204.06683v1 )

ライセンス: CC BY 4.0
Xiang Dai and Ilias Chalkidis and Sune Darkner and Desmond Elliott(参考訳) 最近のテキスト分類の文献は、短いテキストシーケンス(例えば、文または段落)に偏っている。 実世界のアプリケーションでは、マルチページマルチパラグラフドキュメントが一般的であり、バニラトランスフォーマティブベースのモデルでは効率的にエンコードできない。 我々は,より長いテキストをエンコードするために,バニラ変換器の計算オーバーヘッドを軽減するために,Transformer-based Long Document Classification (TrLDC) のアプローチを比較した。 異なるドメインをカバーする4つの文書分類データセット上で,分散注意(局所注意窓のサイズ,グローバル注意の利用など)と階層的(文書分割戦略など)トランスフォーマーのいくつかの側面について検討する。 我々は,長いテキストを処理できるという明確な利点を観察し,その結果から,長い文書分類タスクにトランスフォーマーモデルを適用する実践的なアドバイスを得る。

The recent literature in text classification is biased towards short text sequences (e.g., sentences or paragraphs). In real-world applications, multi-page multi-paragraph documents are common and they cannot be efficiently encoded by vanilla Transformer-based models. We compare different Transformer-based Long Document Classification (TrLDC) approaches that aim to mitigate the computational overhead of vanilla transformers to encode much longer text, namely sparse attention and hierarchical encoding methods. We examine several aspects of sparse attention (e.g., size of local attention window, use of global attention) and hierarchical (e.g., document splitting strategy) transformers on four document classification datasets covering different domains. We observe a clear benefit from being able to process longer text, and, based on our results, we derive practical advice of applying Transformer-based models on long document classification tasks.
翻訳日:2022-04-16 02:29:14 公開日:2022-04-14
# (参考訳) マルチタスク学習における収束行動の活用による相反するタスクのバランス [全文訳有]

Leveraging convergence behavior to balance conflicting tasks in multi-task learning ( http://arxiv.org/abs/2204.06698v1 )

ライセンス: CC BY 4.0
Angelica Tiemi Mizuno Nakamura, Denis Fernando Wolf, Valdir Grassi Jr(参考訳) マルチタスク学習は、相関タスクを使用してパフォーマンスの一般化を改善する学習パラダイムである。 複数のタスクを学習する一般的な方法は、単一のアーキテクチャを使ってパラメータのサブセットを共有し、トレーニングプロセス中にそれら間で帰納的バイアスを発生させる、ハードパラメータ共有アプローチである。 その単純さ、一般化の改善の可能性、計算コストの削減により、科学と産業のコミュニティの注目を集めている。 しかし、タスクは互いに矛盾することが多く、同時に学習できるように複数のタスクの勾配をどのように組み合わせるべきかを定義することは困難である。 この問題に対処するために,多目的最適化(multi-objective optimization)という考え方を用いて,勾配の時間的挙動を考慮し,バックプロパゲーション中の各タスクの重要性を調整する動的バイアスを生成する手法を提案する。 この方法の成果は、分岐しているタスクや前回のイテレーションで利益が得られないタスクにもっと注意を向けることであり、同時に学習がすべてのタスクのパフォーマンスの最大化に向かっていることを保証することである。 その結果,提案手法は,矛盾するタスクの学習において,最先端の手法よりも優れていることを示す。 採用されているベースラインとは異なり、この方法はすべてのタスクが優れた一般化性能に達することを保証します。

Multi-Task Learning is a learning paradigm that uses correlated tasks to improve performance generalization. A common way to learn multiple tasks is through the hard parameter sharing approach, in which a single architecture is used to share the same subset of parameters, creating an inductive bias between them during the training process. Due to its simplicity, potential to improve generalization, and reduce computational cost, it has gained the attention of the scientific and industrial communities. However, tasks often conflict with each other, which makes it challenging to define how the gradients of multiple tasks should be combined to allow simultaneous learning. To address this problem, we use the idea of multi-objective optimization to propose a method that takes into account temporal behaviour of the gradients to create a dynamic bias that adjust the importance of each task during the backpropagation. The result of this method is to give more attention to the tasks that are diverging or that are not being benefited during the last iterations, allowing to ensure that the simultaneous learning is heading to the performance maximization of all tasks. As a result, we empirically show that the proposed method outperforms the state-of-art approaches on learning conflicting tasks. Unlike the adopted baselines, our method ensures that all tasks reach good generalization performances.
翻訳日:2022-04-16 02:08:57 公開日:2022-04-14
# (参考訳) SNP2Vec:ゲノムワイド研究のためのスケーラブルな自己監督型事前学習 [全文訳有]

SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study ( http://arxiv.org/abs/2204.06699v1 )

ライセンス: CC BY-SA 4.0
Samuel Cahyawijaya, Tiezheng Yu, Zihan Liu, Tiffany T.W. Mak, Xiaopu Zhou, Nancy Y. Ip, Pascale Fung(参考訳) 自己指導型事前学習法は、テキスト、画像、および音声の理解において顕著なブレークスルーをもたらした。 近年のゲノム学の発展は、これらの事前学習手法をゲノム理解に適用している。 しかし、それらはハプロイド配列の理解のみに焦点を当てており、遺伝変異の理解への応用を妨げている(snps(single nucleotide polymorphisms)とも呼ばれる)。 本稿では、SNPを理解するためのスケーラブルな自己教師型事前学習アプローチであるSNP2Vecを紹介する。 我々はSNP2Vecを長期ゲノムモデリングに応用し,中国のコホートにおけるアルツハイマー病のリスクを予測するためのアプローチの有効性を評価する。 提案手法は,ハプロイド配列で完全に訓練されたモデルを含む,既存のポリジェニックリスクスコア法および他のベースラインを著しく上回る。 私たちはコードとデータセットをhttps://github.com/h ltchkust/snp2vecでリリースします。

Self-supervised pre-training methods have brought remarkable breakthroughs in the understanding of text, image, and speech. Recent developments in genomics has also adopted these pre-training methods for genome understanding. However, they focus only on understanding haploid sequences, which hinders their applicability towards understanding genetic variations, also known as single nucleotide polymorphisms (SNPs), which is crucial for genome-wide association study. In this paper, we introduce SNP2Vec, a scalable self-supervised pre-training approach for understanding SNP. We apply SNP2Vec to perform long-sequence genomics modeling, and we evaluate the effectiveness of our approach on predicting Alzheimer's disease risk in a Chinese cohort. Our approach significantly outperforms existing polygenic risk score methods and all other baselines, including the model that is trained entirely with haploid sequences. We release our code and dataset on https://github.com/H LTCHKUST/snp2vec.
翻訳日:2022-04-16 01:51:40 公開日:2022-04-14
# (参考訳) LSTM-Autoencoderによる室内空気質時系列データの異常検出 [全文訳有]

LSTM-Autoencoder based Anomaly Detection for Indoor Air Quality Time Series Data ( http://arxiv.org/abs/2204.06701v1 )

ライセンス: CC BY 4.0
Yuanyuan Wei, Julian Jang-Jaccard, Wen Xu, Fariza Sabrina, Seyit Camtepe, Mikael Boulic(参考訳) 室内空気質(IAQ)データの異常検出は、空気の質が人間の健康と健康と密接に関連しているため、研究の重要領域となっている。 しかし、IAQ領域における異常検出における従来の統計と浅層機械学習に基づくアプローチは、複数のデータポイント(しばしば長期依存と呼ばれる)にわたる相関の観測を含む異常を検出できなかった。 本稿では,iaqにおける異常検出タスクのためのlstmとオートエンコーダを組み合わせたハイブリッドディープラーニングモデルを提案する。 本手法では、LSTMネットワークは複数のLSTMセルから構成され、時系列シーケンスでデータの長期依存性を学習する。 オートエンコーダは、時系列の全てのデータで評価されたレコンストラクション損失率に基づいて最適なしきい値を特定する。 ニュージーランドにおける実世界の学校の展開によって得られたdunedin co2時系列データセットに基づく実験結果は、他の類似モデルを上回る非常に高い正確性(99.50%)を示している。

Anomaly detection for indoor air quality (IAQ) data has become an important area of research as the quality of air is closely related to human health and well-being. However, traditional statistics and shallow machine learning-based approaches in anomaly detection in the IAQ area could not detect anomalies involving the observation of correlations across several data points (i.e., often referred to as long-term dependences). We propose a hybrid deep learning model that combines LSTM with Autoencoder for anomaly detection tasks in IAQ to address this issue. In our approach, the LSTM network is comprised of multiple LSTM cells that work with each other to learn the long-term dependences of the data in a time-series sequence. Autoencoder identifies the optimal threshold based on the reconstruction loss rates evaluated on every data across all time-series sequences. Our experimental results, based on the Dunedin CO2 time-series dataset obtained through a real-world deployment of the schools in New Zealand, demonstrate a very high and robust accuracy rate (99.50%) that outperforms other similar models.
翻訳日:2022-04-16 01:10:48 公開日:2022-04-14
# (参考訳) 周波数領域における畳み込みニューラルネットワークの学習 [全文訳有]

Learning Convolutional Neural Networks in Frequency Domain ( http://arxiv.org/abs/2204.06718v1 )

ライセンス: CC BY 4.0
Hengyue Pan(参考訳) 畳み込みニューラルネットワーク(cnn)は、過去数十年間、コンピュータビジョンの分野で素晴らしい成功を収めてきた。 CNNのコアとして、画像畳み込み操作は、CNNが画像関連タスクにおいて優れたパフォーマンスを達成するのに役立つ。 しかし、画像畳み込みの実装や並列化は困難である。 本稿では,周波数領域でトレーニング可能な新しいニューラルネットワークモデルであるCEMNetを提案する。 この研究の最も重要な動機は、クロス相関理論に基づく周波数領域における画像畳み込みを置き換えるために、非常に単純な要素ワイズ乗算演算を使うことができることである。 さらに,重み付けを緩和する重み付け機構を導入し,周波数領域におけるバッチ正規化,漏洩ReLU,Dropoutの動作を解析して,CEMNetの対応品を設計する。 また、DFTがもたらす複雑な入力に対処するため、CEMNetのための2つの分岐ネットワーク構造を設計する。 実験の結果,CEMNetは周波数領域でよく動作し,MNISTおよびCIFAR-10データベース上での良好な性能が得られた。 我々の知る限り、CEMNetは、CIFAR-10データベース上で70%以上の検証精度を達成するFourier Domainでトレーニングされた最初のモデルです。

Convolutional neural network (CNN) achieves impressive success in the field of computer vision during the past few decades. As the core of CNNs, image convolution operation helps CNNs to achieve good performance on image-related tasks. However, image convolution is hard to be implemented and parallelized. In this paper, we propose a novel neural network model, namely CEMNet, that can be trained in frequency domain. The most important motivation of this research is that we can use the very simple element-wise multiplication operation to replace the image convolution in frequency domain based on Cross-Correlation Theorem. We further introduce Weight Fixation Mechanism to alleviate over-fitting, and analyze the working behavior of Batch Normalization, Leaky ReLU and Dropout in frequency domain to design their counterparts for CEMNet. Also, to deal with complex inputs brought by DFT, we design two branch network structure for CEMNet. Experimental results imply that CEMNet works well in frequency domain, and achieve good performance on MNIST and CIFAR-10 databases. To our knowledge, CEMNet is the first model trained in Fourier Domain that achieves more than 70\% validation accuracy on CIFAR-10 database.
翻訳日:2022-04-16 00:51:06 公開日:2022-04-14
# (参考訳) GPT-NeoX-20B: オープンソースの自己回帰型言語モデル

GPT-NeoX-20B: An Open-Source Autoregressive Language Model ( http://arxiv.org/abs/2204.06745v1 )

ライセンス: CC BY 4.0
Sid Black and Stella Biderman and Eric Hallahan and Quentin Anthony and Leo Gao and Laurence Golding and Horace He and Connor Leahy and Kyle McDonell and Jason Phang and Michael Pieler and USVSN Sai Prashanth and Shivanshu Purohit and Laria Reynolds and Jonathan Tow and Ben Wang and Samuel Weinbach(参考訳) GPT-NeoX-20Bは、パイルで訓練された200億のパラメータの自動回帰言語モデルであり、その重み付けはパーミッシブライセンスを通じて、無料で公開される。 私たちの知る限りでは、提出時点で一般に利用可能な重量を持つ最大の密集自己回帰モデルである。 本稿では, 言語理解, 数学, 知識に基づくタスクにおいて, モデル{}のアーキテクチャとトレーニングを記述し, その性能を評価する。 GPT-NeoX-20Bは特に強力で、同様のサイズのGPT-3やFairSeqモデルよりも5ショットの評価で性能が向上している。 トレーニングと評価のコードとモデルの重み付けはhttps://github.com/E leutherAI/gpt-neox.o rgで公開しています。

We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense autoregressive model that has publicly available weights at the time of submission. In this work, we describe \model{}'s architecture and training and evaluate its performance on a range of language-understandi ng, mathematics, and knowledge-based tasks. We find that GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in performance when evaluated five-shot than similarly sized GPT-3 and FairSeq models. We open-source the training and evaluation code, as well as the model weights, at https://github.com/E leutherAI/gpt-neox.
翻訳日:2022-04-16 00:39:43 公開日:2022-04-14
# (参考訳) Bioformerを用いたCOVID-19文献のマルチラベルトピック分類 [全文訳有]

Multi-label topic classification for COVID-19 literature with Bioformer ( http://arxiv.org/abs/2204.06758v1 )

ライセンス: CC BY 4.0
Li Fang, Kai Wang(参考訳) バイオフォーマーチームによるCOVID-19文献の多ラベルトピック分類課題(BioCreative VIIのトラック5)への参加について述べる。 異なるBERTモデル(BioBERT、PubMedBERT、Bioformer)を使用してトピック分類を行う。 話題分類タスクを,タイトルが第1文,抽象が第2文である文対分類問題として定式化する。 以上の結果から,BioformerはBioBERTとPubMedBERTよりも優れていた。 ベースライン結果と比較すると,マイクロ,マクロ,インスタンスベースのF1スコアはそれぞれ8.8%,15.5%,7.4%増加した。 バイオフォーマーはこの挑戦でマイクロF1とマクロF1の最高点を達成した。 カオス後の実験では、バイオフォーマーのCOVID-19記事への事前トレーニングにより、パフォーマンスがさらに向上することがわかった。

We describe Bioformer team's participation in the multi-label topic classification task for COVID-19 literature (track 5 of BioCreative VII). Topic classification is performed using different BERT models (BioBERT, PubMedBERT, and Bioformer). We formulate the topic classification task as a sentence pair classification problem, where the title is the first sentence, and the abstract is the second sentence. Our results show that Bioformer outperforms BioBERT and PubMedBERT in this task. Compared to the baseline results, our best model increased micro, macro, and instance-based F1 score by 8.8%, 15.5%, 7.4%, respectively. Bioformer achieved the highest micro F1 and macro F1 scores in this challenge. In post-challenge experiments, we found that pretraining of Bioformer on COVID-19 articles further improves the performance.
翻訳日:2022-04-16 00:37:58 公開日:2022-04-14
# (参考訳) マルチモーダル時空間グラフニューラルネットワークによる30日間の病院通院予測の改善

Multimodal spatiotemporal graph neural networks for improved prediction of 30-day all-cause hospital readmission ( http://arxiv.org/abs/2204.06766v1 )

ライセンス: CC BY 4.0
Siyi Tang, Amara Tariq, Jared Dunnmon, Umesh Sharma, Praneetha Elugunti, Daniel Rubin, Bhavik N. Patel, Imon Banerjee(参考訳) 正確な予測は退院前にリスクの高い患者を特定することによって全体のケアコストを削減できるため、30日間の入院の予測は病院にとって重要な品質要因であると考えられている。 近年の深層学習に基づく研究は、寛容予測に有望な実験結果を示しているが、幅広い臨床効果を妨げるいくつかの制限が存在する。 (a)特定の状態の患者のみが考慮される。 (b)既存のアプローチは、データの時間性を利用しない。 (c)個別の入場は互いに独立しており、非現実的である。 d) 先行研究は通常、単一のデータソースと単一のセンターデータに限定される。 これらの制約に対処するため, マルチモーダル・モダリティ非依存型時空間グラフニューラルネットワーク (MM-STGNN) を提案する。 縦断的胸部X線写真と電子健康記録を用いて, MM-STGNNが一次データと外部データの両方で0.79のAUROCを達成することを実証した。 さらに、MM-STGNNは、一次データセットにおいて、現在の臨床基準であるLACE+スコア(AUROC=0.61)を大きく上回っている。 心臓疾患および血管疾患患者のサブセットでは,30日間の寛解(心疾患におけるAUROCの3.7ポイント改善など)の予測において,ベースラインを上回った。 最後に、定性的モデル解釈可能性分析により、患者の一次診断はモデルトレーニングに明示的に使用されなかったが、モデルの予測に重要なノードの特徴は患者の一次診断を直接反映していることが示唆された。 重要なことは,我々のMM-STGNNはノードの特徴量に非依存であり,様々な下流資源割り当てタスクにおいて患者をトリアージするためのマルチモーダルデータの統合に利用することができる。

Measures to predict 30-day readmission are considered an important quality factor for hospitals as accurate predictions can reduce the overall cost of care by identifying high risk patients before they are discharged. While recent deep learning-based studies have shown promising empirical results on readmission prediction, several limitations exist that may hinder widespread clinical utility, such as (a) only patients with certain conditions are considered, (b) existing approaches do not leverage data temporality, (c) individual admissions are assumed independent of each other, which is unrealistic, (d) prior studies are usually limited to single source of data and single center data. To address these limitations, we propose a multimodal, modality-agnostic spatiotemporal graph neural network (MM-STGNN) for prediction of 30-day all-cause hospital readmission that fuses multimodal in-patient longitudinal data. By training and evaluating our methods using longitudinal chest radiographs and electronic health records from two independent centers, we demonstrate that MM-STGNN achieves AUROC of 0.79 on both primary and external datasets. Furthermore, MM-STGNN significantly outperforms the current clinical reference standard, LACE+ score (AUROC=0.61), on the primary dataset. For subset populations of patients with heart and vascular disease, our model also outperforms baselines on predicting 30-day readmission (e.g., 3.7 point improvement in AUROC in patients with heart disease). Lastly, qualitative model interpretability analysis indicates that while patients' primary diagnoses were not explicitly used to train the model, node features crucial for model prediction directly reflect patients' primary diagnoses. Importantly, our MM-STGNN is agnostic to node feature modalities and could be utilized to integrate multimodal data for triaging patients in various downstream resource allocation tasks.
翻訳日:2022-04-16 00:32:48 公開日:2022-04-14
# (参考訳) タスク対応型エネルギー分散学習 : フェデレーションアプローチ [全文訳有]

Learning Task-Aware Energy Disaggregation: a Federated Approach ( http://arxiv.org/abs/2204.06767v1 )

ライセンス: CC BY 4.0
Ruohong Liu, Yize Chen(参考訳) 住宅負荷データに対するエネルギー分散信号の学習の問題点を考察する。 このようなタスクは非侵入負荷監視(non-intrusive load monitoring, nilm)と呼ばれ、集約されたメーター計測に基づいて個々のデバイスの消費電力プロファイルを見つけるために、多くの住宅からの大量のトレーニングデータに基づいて機械学習モデルをトレーニングする。 しかし、このような住宅負荷データセットの収集には、測定データの共有に多大な努力と顧客の承認が必要であり、異なるリージョンや電力ユーザからの負荷データは、異種の使用パターンを示す可能性がある。 どちらも、トレーニングを単一の集中型NILMモデルにすることを難しくしている。 本稿では,nested meta learning と federated learning を総合的に学習するために設計した nilm タスクのための分散化およびタスク適応学習方式を提案する。 ベンチマークデータセットのシミュレーション結果は、様々な家庭や家電製品の家電レベルの消費を効率的に推定するアルゴリズムの性能を検証する。

We consider the problem of learning the energy disaggregation signals for residential load data. Such task is referred as non-intrusive load monitoring (NILM), and in order to find individual devices' power consumption profiles based on aggregated meter measurements, a machine learning model is usually trained based on large amount of training data coming from a number of residential homes. Yet collecting such residential load datasets require both huge efforts and customers' approval on sharing metering data, while load data coming from different regions or electricity users may exhibit heterogeneous usage patterns. Both practical concerns make training a single, centralized NILM model challenging. In this paper, we propose a decentralized and task-adaptive learning scheme for NILM tasks, where nested meta learning and federated learning steps are designed for learning task-specific models collectively. Simulation results on benchmark dataset validate proposed algorithm's performance on efficiently inferring appliance-level consumption for a variety of homes and appliances.
翻訳日:2022-04-16 00:31:28 公開日:2022-04-14
# (参考訳) ViTOL: 弱教師付きオブジェクトローカライゼーションのための視覚変換器 [全文訳有]

ViTOL: Vision Transformer for Weakly Supervised Object Localization ( http://arxiv.org/abs/2204.06772v1 )

ライセンス: CC BY 4.0
Saurav Gupta, Sourav Lakhotia, Abhay Rawat, Rahul Tallamraju(参考訳) weakly supervised object localization (wsol) は、画像レベルのカテゴリラベルのみを使用して、画像内のオブジェクトの位置を予測することを目的としている。 画像分類モデルがオブジェクトをローカライズするときの一般的な課題は (a)局所写像を非常に小さな領域に限定した画像において、最も識別的な特徴を見る傾向にある。 (b)ローカライゼーションマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトし、 (c) 局所化性能は背景雑音の影響を受ける。 上記の課題を軽減するため、提案手法であるViTOLを用いて、以下の簡単な変更を導入する。 視覚ベースのトランスフォーマーを自己着脱に活用し,p-adl(patch-based attention dropout layer)を導入してローカライゼーションマップの範囲を拡大し,勾配注意ロールアウト機構によりクラス依存の注意マップを生成する。 imagenet-1k と cub データセットの量的・質的・アブレーション実験を行った。 最先端のMaxBoxAcc-V2ローカライゼーションスコアはそれぞれ70.47%と73.17%である。 コードはhttps://github.com/S aurav-31/ViTOLで入手できる。

Weakly supervised object localization (WSOL) aims at predicting object locations in an image using only image-level category labels. Common challenges that image classification models encounter when localizing objects are, (a) they tend to look at the most discriminative features in an image that confines the localization map to a very small region, (b) the localization maps are class agnostic, and the models highlight objects of multiple classes in the same image and, (c) the localization performance is affected by background noise. To alleviate the above challenges we introduce the following simple changes through our proposed method ViTOL. We leverage the vision-based transformer for self-attention and introduce a patch-based attention dropout layer (p-ADL) to increase the coverage of the localization map and a gradient attention rollout mechanism to generate class-dependent attention maps. We conduct extensive quantitative, qualitative and ablation experiments on the ImageNet-1K and CUB datasets. We achieve state-of-the-art MaxBoxAcc-V2 localization scores of 70.47% and 73.17% on the two datasets respectively. Code is available on https://github.com/S aurav-31/ViTOL
翻訳日:2022-04-16 00:18:09 公開日:2022-04-14
# (参考訳) sar画像分類のための深層学習法の説明可能な解析 [全文訳有]

Explainable Analysis of Deep Learning Methods for SAR Image Classification ( http://arxiv.org/abs/2204.06783v1 )

ライセンス: CC BY 4.0
Shenghan Su, Ziteng Cui, Weiwei Guo, Zenghui Zhang, Wenxian Yu(参考訳) 深層学習法は合成開口レーダ(SAR)画像解釈タスクにおいて優れた性能を示す。 しかし、これらは予測の理解を制限するブラックボックスモデルである。 そこで我々は,この課題に対処するために,SAR画像分類タスクに説明可能な人工知能(XAI)手法を用いた。 具体的には,OpenSARUrbanデータセット上で各偏極フォーマットに対して最先端の畳み込みニューラルネットワークを訓練し,SAR画像のCNN分類器の予測を解析するための8つの説明手法を検討した。 これらのXAI法は定性的かつ定量的に評価され、オクルージョンは最大感度でもっとも信頼性の高い解釈性能を、低分解能な説明熱マップで達成することを示した。 その結果,SAR画像分類におけるブラックボックス決定の内部メカニズムについて考察した。

Deep learning methods exhibit outstanding performance in synthetic aperture radar (SAR) image interpretation tasks. However, these are black box models that limit the comprehension of their predictions. Therefore, to meet this challenge, we have utilized explainable artificial intelligence (XAI) methods for the SAR image classification task. Specifically, we trained state-of-the-art convolutional neural networks for each polarization format on OpenSARUrban dataset and then investigate eight explanation methods to analyze the predictions of the CNN classifiers of SAR images. These XAI methods are also evaluated qualitatively and quantitatively which shows that Occlusion achieves the most reliable interpretation performance in terms of Max-Sensitivity but with a low-resolution explanation heatmap. The explanation results provide some insights into the internal mechanism of black-box decisions for SAR image classification.
翻訳日:2022-04-16 00:03:24 公開日:2022-04-14
# (参考訳) Sign Bitは十分すぎる: 究極の圧縮を伴うマルチホップオールリデュースのための学習同期フレームワーク [全文訳有]

Sign Bit is Enough: A Learning Synchronization Framework for Multi-hop All-reduce with Ultimate Compression ( http://arxiv.org/abs/2204.06787v1 )

ライセンス: CC BY 4.0
Feijie Wu, Shiqi He, Song Guo, Zhihao Qu, Haozhao Wang, Weihua Zhuang, Jie Zhang(参考訳) 従来の1ビット圧縮確率勾配勾配は、パブリッククラウドのようなネットワーク集約型高性能コンピューティングシステムにおいて広く採用されている分散トレーニングパラダイムであるマルチホップオールリデュースでは直接利用できない。 理論的な結果から,カスケード圧縮により,トレーニングプロセスは収束性能を著しく低下させることがわかった。 この制限を克服するために,符号ビット圧縮に基づく学習同期フレームワークであるMarsitを実装した。 符号アグリゲーションのための精巧なビットワイド演算によるカスケード圧縮を防止し、圧縮偏差を緩和するための具体的なグローバル補償機構を提供する。 提案手法は,非圧縮機構と同じ理論的収束率を有する。 実験の結果、Marsitはトレーニング時間を最大35%削減し、圧縮のないトレーニングと同じ精度で保存できることがわかった。

Traditional one-bit compressed stochastic gradient descent can not be directly employed in multi-hop all-reduce, a widely adopted distributed training paradigm in network-intensive high-performance computing systems such as public clouds. According to our theoretical findings, due to the cascading compression, the training process has considerable deterioration on the convergence performance. To overcome this limitation, we implement a sign-bit compression-based learning synchronization framework, Marsit. It prevents cascading compression via an elaborate bit-wise operation for unbiased sign aggregation and its specific global compensation mechanism for mitigating compression deviation. The proposed framework retains the same theoretical convergence rate as non-compression mechanisms. Experimental results demonstrate that Marsit reduces up to 35% training time while preserving the same accuracy as training without compression.
翻訳日:2022-04-15 23:57:09 公開日:2022-04-14
# (参考訳) 塩分検出のためのピラミッド型注意 [全文訳有]

Pyramidal Attention for Saliency Detection ( http://arxiv.org/abs/2204.06788v1 )

ライセンス: CC BY-SA 4.0
Tanveer Hussain, Abbas Anwar, Saeed Anwar, Lars Petersson, Sung Wook Baik(参考訳) 正対象検出(SOD)は、入力画像から意味のある内容を抽出する。 RGBベースのSODメソッドには相補的な奥行きのヒントがないため、複雑なシナリオに対して限られたパフォーマンスを提供する。 同様に、RGB-DモデルはRGBと深度入力を処理するが、テスト中の深度データの可用性はモデルの実用性を妨げる可能性がある。 本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。 ピラミッド型注意構造を用いて,マルチレベル畳み込み変換特徴を抽出し,初期ステージ表現を処理し,それに続く特徴をさらに強化する。 各段階において、バックボーントランスフォーマーモデルは、最適な塩分率予測のための残差畳み込みアテンションデコーダによって微細なグローバル予測を達成するために、グローバル受容場と計算を並列に生成する。 8つのRGBおよびRGB-Dデータセット上で,21および40の最先端SOD法に対する性能改善を報告した。 そこで本研究では,RGB-D SODを訓練および試験中に深度データを取得せずに生成する新たなSOD視点を提案する。 コードとトレーニングされたモデルはhttps://github.com/t anveer-hussain/ efficientsod2で入手できる。

Salient object detection (SOD) extracts meaningful contents from an input image. RGB-based SOD methods lack the complementary depth clues; hence, providing limited performance for complex scenarios. Similarly, RGB-D models process RGB and depth inputs, but the depth data availability during testing may hinder the model's practical applicability. This paper exploits only RGB images, estimates depth from RGB, and leverages the intermediate depth features. We employ a pyramidal attention structure to extract multi-level convolutional-transf ormer features to process initial stage representations and further enhance the subsequent ones. At each stage, the backbone transformer model produces global receptive fields and computing in parallel to attain fine-grained global predictions refined by our residual convolutional attention decoder for optimal saliency prediction. We report significantly improved performance against 21 and 40 state-of-the-art SOD methods on eight RGB and RGB-D datasets, respectively. Consequently, we present a new SOD perspective of generating RGB-D SOD without acquiring depth data during training and testing and assist RGB methods with depth clues for improved performance. The code and trained models are available at https://github.com/t anveer-hussain/Effic ientSOD2
翻訳日:2022-04-15 23:32:52 公開日:2022-04-14
# (参考訳) YOLO-Pose:オブジェクトキーポイント類似性損失を用いたマルチパーソンポーズ推定におけるYOLOの強化 [全文訳有]

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss ( http://arxiv.org/abs/2204.06806v1 )

ライセンス: CC BY 4.0
Debapriya Maji, Soyeb Nagori, Manu Mathew, Deepak Poddar(参考訳) 画像中の2次元人物のポーズ推定を,一般的なYOLOオブジェクト検出フレームワークをベースとした,新しいヒートマップのないジョイント検出手法であるYOLO-poseを紹介した。 既存のヒートマップベースの2段階のアプローチは、エンドツーエンドのトレーニングができないため、サブ最適であり、トレーニングは、評価基準、すなわちオブジェクトキーポイント類似度(OKS)の最大化と等価ではない代理L1損失に依存している。 私たちのフレームワークでは、モデルをエンドツーエンドにトレーニングし、OKSメトリック自体を最適化することができます。 提案モデルでは,複数の人に対するバウンディングボックスと対応する2次元ポーズを1つのフォワードパスで共同検出し,トップダウンとボトムアップの両方のアプローチを最大限に活用する。 提案されたアプローチは、検出されたキーポイントをスケルトンにグループ化するためのボトムアップアプローチのプロセス後処理を必要としない。 トップダウンアプローチとは異なり、複数のフォワードパスは、すべての人が単一の推論でポーズとともにローカライズされるため、廃止される。 yolo-pose は coco validation (90.2% ap50) と test-dev set (90.3% ap50) で新たな最先端結果を達成し、フリップテストやマルチスケールテスト、その他のテスト時間の強化なしに、単一のフォワードパスで既存のボトムアップアプローチをすべて上回っている。 従来のフリップテストやマルチスケールテストによるパフォーマンス向上手法とは異なり,本論文で報告したすべての実験と結果は,テスト時間の増大を伴わない。 トレーニングコードはhttps://github.com/T exasInstruments/edge ai-yolov5とhttps://github.com/T exasInstruments/edge ai-yoloxで公開されます。

We introduce YOLO-pose, a novel heatmap-free approach for joint detection, and 2D multi-person pose estimation in an image based on the popular YOLO object detection framework. Existing heatmap based two-stage approaches are sub-optimal as they are not end-to-end trainable and training relies on a surrogate L1 loss that is not equivalent to maximizing the evaluation metric, i.e. Object Keypoint Similarity (OKS). Our framework allows us to train the model end-to-end and optimize the OKS metric itself. The proposed model learns to jointly detect bounding boxes for multiple persons and their corresponding 2D poses in a single forward pass and thus bringing in the best of both top-down and bottom-up approaches. Proposed approach doesn't require the postprocessing of bottom-up approaches to group detected keypoints into a skeleton as each bounding box has an associated pose, resulting in an inherent grouping of the keypoints. Unlike top-down approaches, multiple forward passes are done away with since all persons are localized along with their pose in a single inference. YOLO-pose achieves new state-of-the-art results on COCO validation (90.2% AP50) and test-dev set (90.3% AP50), surpassing all existing bottom-up approaches in a single forward pass without flip test, multi-scale testing, or any other test time augmentation. All experiments and results reported in this paper are without any test time augmentation, unlike traditional approaches that use flip-test and multi-scale testing to boost performance. Our training codes will be made publicly available at https://github.com/T exasInstruments/edge ai-yolov5 and https://github.com/T exasInstruments/edge ai-yolox
翻訳日:2022-04-15 23:16:25 公開日:2022-04-14
# (参考訳) deep-significance - ニューラルネットワーク時代における容易で有意義な統計的意義テスト [全文訳有]

deep-significance - Easy and Meaningful Statistical Significance Testing in the Age of Neural Networks ( http://arxiv.org/abs/2204.06815v1 )

ライセンス: CC BY 4.0
Dennis Ulmer, Christian Hardmeier, Jes Frellsen(参考訳) 機械学習(ML)とディープラーニング(DL)の研究の多くは、実証的な性質を持っています。 しかし、統計的意義試験(SST)はいまだに広く使われていない。 このことは、ベースラインに対する改善が統計的分岐であるように見えるため、人や計算資源を浪費しながら、追跡研究の混乱を招いている。 ここでは,研究ニーズとユーザビリティに特化した,さまざまな重要度テストとユーティリティ機能を含む,使いやすいパッケージを提供する。

A lot of Machine Learning (ML) and Deep Learning (DL) research is of an empirical nature. Nevertheless, statistical significance testing (SST) is still not widely used. This endangers true progress, as seeming improvements over a baseline might be statistical flukes, leading follow-up research astray while wasting human and computational resources. Here, we provide an easy-to-use package containing different significance tests and utility functions specifically tailored towards research needs and usability.
翻訳日:2022-04-15 23:03:53 公開日:2022-04-14
# (参考訳) 非定常環境における検証レイテンシを用いたストリームベースアクティブラーニング [全文訳有]

Stream-based Active Learning with Verification Latency in Non-stationary Environments ( http://arxiv.org/abs/2204.06822v1 )

ライセンス: CC BY 4.0
Andrea Castellani, Sebastian Schmitt, Barbara Hammer(参考訳) データストリームの分類は、機械学習の分野で重要な問題である。 基礎となる分散が時間とともに変化するデータの非定常性(概念ドリフト)のため、モデルは新しいデータ統計に継続的に適応する必要がある。 ストリームベースのアクティブラーニング(al)アプローチは、人間の専門家にインタラクティブにクエリして、限られた予算内で最新のサンプルに新しいデータラベルを提供することによって、この問題に対処します。 既存のal戦略では、ラベルはすぐに利用できると仮定しているが、実際のシナリオでは、専門家はクエリされたラベル(検証遅延)を提供する時間を必要とし、要求されたラベルが到着する頃には、もはや関係がないかもしれない。 本稿では,alアプローチにおける概念ドリフトの存在下での有限,時間変数,未知の検証遅延の影響について検討する。 PRopagate (PR) は遅延に依存しないユーティリティ推定器で、要求されたがまだ分かっていないラベルを予測できる。 さらに,ドリフト検出後,時間とともにラベル付予算の変動分布を利用するドリフト依存型動的予算戦略を提案する。 合成および実世界の非定常データセットと、検証待ち時間と予算の異なる設定を用いて、詳細な実験的評価を行い、分析した。 提案手法が常に最先端技術より優れていることを実証的に示す。 さらに, 予算配分の変動により, 総合的なラベル付け予算を増大させることなく, AL戦略の性能を高めることができることを示した。

Data stream classification is an important problem in the field of machine learning. Due to the non-stationary nature of the data where the underlying distribution changes over time (concept drift), the model needs to continuously adapt to new data statistics. Stream-based Active Learning (AL) approaches address this problem by interactively querying a human expert to provide new data labels for the most recent samples, within a limited budget. Existing AL strategies assume that labels are immediately available, while in a real-world scenario the expert requires time to provide a queried label (verification latency), and by the time the requested labels arrive they may not be relevant anymore. In this article, we investigate the influence of finite, time-variable, and unknown verification delay, in the presence of concept drift on AL approaches. We propose PRopagate (PR), a latency independent utility estimator which also predicts the requested, but not yet known, labels. Furthermore, we propose a drift-dependent dynamic budget strategy, which uses a variable distribution of the labelling budget over time, after a detected drift. Thorough experimental evaluation, with both synthetic and real-world non-stationary datasets, and different settings of verification latency and budget are conducted and analyzed. We empirically show that the proposed method consistently outperforms the state-of-the-art. Additionally, we demonstrate that with variable budget allocation in time, it is possible to boost the performance of AL strategies, without increasing the overall labeling budget.
翻訳日:2022-04-15 22:42:42 公開日:2022-04-14
# (参考訳) 自己進化型コンピューティングシステムのビジョン [全文訳有]

The Vision of Self-Evolving Computing Systems ( http://arxiv.org/abs/2204.06825v1 )

ライセンス: CC BY 4.0
Danny Weyns, Thomas Baeck, Rene Vidal, Xin Yao, and Ahmed Nabil Belbachir(参考訳) コンピュータシステムは一様であり、その持続性は我々の社会にとって重要になっている。 この持続可能性の重要な側面は、動的運用条件から目標の変更、技術的進歩に至るまで、コンピュータシステムが直面する継続的な変化に対処する能力である。 さまざまなタイプの変更を自律的に処理するスマートコンピューティングシステムを設計することは可能ですが、予期しない変更に対処するにはシステムの進化が必要です。 最終的にこれは管理不能になる。 現状を打破するため,我々は,進化エンジンを備えた自己進化型コンピューティングシステムのビジョンに対して,自律的な進化を可能にするための魅力的な意見を提示する。 具体的には、自己進化型コンピューティングシステムが、異常や新しいゴールなどの運用領域外の条件を検出すると、オンライン実験を実行する進化エンジンを起動し、システムがどのように変化に対処する必要があるかを判断し、アーキテクチャを進化させる。 このプロセスでは、エンジンはコンピューティングウェアハウスが提供する新しいコンピューティング要素を統合することができる。 これらの計算要素は、自動統合を可能にする仕様と手順を提供します。 我々は,技術の現状に照らして,自己進化型コンピューティングシステムの必要性を動機付け,自己進化型コンピューティングシステムの概念的アーキテクチャを概説し,変化する状況下で継続的に進化する必要がある将来のスマートシティモビリティシステムのアーキテクチャを説明する。 結論として,自己進化型コンピューティングシステムのビジョンを実現するための重要な研究課題を強調する。

Computing systems are omnipresent; their sustainability has become crucial for our society. A key aspect of this sustainability is the ability of computing systems to cope with the continuous change they face, ranging from dynamic operating conditions, to changing goals, and technological progress. While we are able to engineer smart computing systems that autonomously deal with various types of changes, handling unanticipated changes requires system evolution, which remains in essence a human-centered process. This will eventually become unmanageable. To break through the status quo, we put forward an arguable opinion for the vision of self-evolving computing systems that are equipped with an evolutionary engine enabling them to evolve autonomously. Specifically, when a self-evolving computing system detects conditions outside its operational domain, such as an anomaly or a new goal, it activates an evolutionary engine that runs online experiments to determine how the system needs to evolve to deal with the changes, thereby evolving its architecture. During this process the engine can integrate new computing elements that are provided by computing warehouses. These computing elements provide specifications and procedures enabling their automatic integration. We motivate the need for self-evolving computing systems in light of the state of the art, outline a conceptual architecture of self-evolving computing systems, and illustrate the architecture for a future smart city mobility system that needs to evolve continuously with changing conditions. To conclude, we highlight key research challenges to realize the vision of self-evolving computing systems.
翻訳日:2022-04-15 22:31:44 公開日:2022-04-14
# (参考訳) 表面類似度パラメータ:振動時空間データのための新しい機械学習損失メトリクス [全文訳有]

Surface Similarity Parameter: A New Machine Learning Loss Metric for Oscillatory Spatio-Temporal Data ( http://arxiv.org/abs/2204.06843v1 )

ライセンス: CC BY 4.0
Mathies Wedler (1), Merten Stender (1), Marco Klein (1), Svenja Ehlers (1), Norbert Hoffmann (1 and 2) ((1) Hamburg University of Technology, (2) Imperial College London)(参考訳) 監視された機械学習アプローチは、トレーニングフェーズで最小化するために損失関数の定式化を必要とする。 シークエンシャルデータは、多くの研究分野に分散しており、表データ用に設計されたユークリッド距離に基づく損失関数で扱われることが多い。 スムーズな振動データの場合、従来の手法では振幅、周波数、位相予測誤差を同時に補償する能力がなく、振幅誤差に偏る傾向にある。 本研究では, 表面類似度パラメータ(SSP)を新しい損失関数として導入し, 滑らかな振動列の学習に特に有用であることを示す。 カオス時空間力学系に関する広範な実験により,sspは勾配形成に有用であり,トレーニングプロセスを加速し,最終予測誤差を低減し,古典的損失関数よりも強い正規化効果を実現できることが示された。 その結果, 非線形2次元クラモト・シヴァシンスキー方程式に基づくデータや, 流体中における分散表面重力波の線形伝播など, 高度に複雑でカオス的なデータに対する新しい損失計量の可能性が示唆された。

Supervised machine learning approaches require the formulation of a loss functional to be minimized in the training phase. Sequential data are ubiquitous across many fields of research, and are often treated with Euclidean distance-based loss functions that were designed for tabular data. For smooth oscillatory data, those conventional approaches lack the ability to penalize amplitude, frequency and phase prediction errors at the same time, and tend to be biased towards amplitude errors. We introduce the surface similarity parameter (SSP) as a novel loss function that is especially useful for training machine learning models on smooth oscillatory sequences. Our extensive experiments on chaotic spatio-temporal dynamical systems indicate that the SSP is beneficial for shaping gradients, thereby accelerating the training process, reducing the final prediction error, and implementing a stronger regularization effect compared to using classical loss functions. The results indicate the potential of the novel loss metric particularly for highly complex and chaotic data, such as data stemming from the nonlinear two-dimensional Kuramoto-Sivashinsky equation and the linear propagation of dispersive surface gravity waves in fluids.
翻訳日:2022-04-15 22:09:28 公開日:2022-04-14
# (参考訳) OmniPD:トップビュー全方位屋内シーンにおけるワンステップ人物検出 [全文訳有]

OmniPD: One-Step Person Detection in Top-View Omnidirectional Indoor Scenes ( http://arxiv.org/abs/2204.06846v1 )

ライセンス: CC BY 4.0
Jingrui Yu, Roman Seidel, Gangolf Hirtz(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)に基づく一段階の人物検出手法を提案する。 アートパーソン検出器の状態は遠近法画像の競合結果に達する一方で、cnnアーキテクチャの欠如と、全方位画像の歪みを追従するトレーニングデータによって、現在のデータに適用できないアプローチが生まれている。 本手法は、視線変換のない全方位画像における複数の人物の境界ボックスを直接予測し、前処理と後処理のオーバーヘッドを低減し、リアルタイムのパフォーマンスを実現する。 基本的な考え方は、遠近法画像で訓練されたcnnに転送学習を活用し、全方位画像におけるデータ拡張技術を用いて検出することである。 単ショットマルチボックス検出器(SSD)の2つの変種を微調整する。 まず、Mobilenet v1 FPNを機能抽出器(moSSD)として使用する。 2つ目はResNet50 v1 FPN(ResSSD)である。 どちらのモデルもMicrosoft Common Objects in Context (COCO)データセットで事前トレーニングされている。 PASCAL VOC07とVOC12のデータセット、特にクラスパーソンのモデルを微調整する。 ランダム90度回転とランダム垂直反転は、元のSSDが提案した手法に加えて、データ拡張に使用される。 mossdでは平均精度 (ap) が67.3 %、評価データセットでは74.9 %に達する。 微調整プロセスを強化するため,HDA PersonデータセットのサブセットとPIROPOdatabaseのサブセットを追加し,視点画像の数をPASCAL VOC07に削減する。 APは、moSSDが83.2%、resSSDが86.3%まで上昇する。 平均推論速度はMoSSDでは28ms、ResSSDでは38ms、Nvidia Quadro P6000では38msである。 本手法は他のcnnベースの物体検出器に適用でき、全方位画像における他の物体の検出を一般化することができる。

We propose a one-step person detector for topview omnidirectional indoor scenes based on convolutional neural networks (CNNs). While state of the art person detectors reach competitive results on perspective images, missing CNN architectures as well as training data that follows the distortion of omnidirectional images makes current approaches not applicable to our data. The method predicts bounding boxes of multiple persons directly in omnidirectional images without perspective transformation, which reduces overhead of pre- and post-processing and enables real-time performance. The basic idea is to utilize transfer learning to fine-tune CNNs trained on perspective images with data augmentation techniques for detection in omnidirectional images. We fine-tune two variants of Single Shot MultiBox detectors (SSDs). The first one uses Mobilenet v1 FPN as feature extractor (moSSD). The second one uses ResNet50 v1 FPN (resSSD). Both models are pre-trained on Microsoft Common Objects in Context (COCO) dataset. We fine-tune both models on PASCAL VOC07 and VOC12 datasets, specifically on class person. Random 90-degree rotation and random vertical flipping are used for data augmentation in addition to the methods proposed by original SSD. We reach an average precision (AP) of 67.3 % with moSSD and 74.9 % with resSSD onthe evaluation dataset. To enhance the fine-tuning process, we add a subset of HDA Person dataset and a subset of PIROPOdatabase and reduce the number of perspective images to PASCAL VOC07. The AP rises to 83.2 % for moSSD and 86.3 % for resSSD, respectively. The average inference speed is 28 ms per image for moSSD and 38 ms per image for resSSD using Nvidia Quadro P6000. Our method is applicable to other CNN-based object detectors and can potentially generalize for detecting other objects in omnidirectional images.
翻訳日:2022-04-15 21:51:13 公開日:2022-04-14
# (参考訳) 仮想免疫組織化学のための深部発生ネットワークにおける正確な染色再生の確保 [全文訳有]

Ensuring accurate stain reproduction in deep generative networks for virtual immunohistochemistry ( http://arxiv.org/abs/2204.06849v1 )

ライセンス: CC BY 4.0
Christopher D. Walsh, Joanne Edwards, Robert H. Insall(参考訳) 免疫組織化学はがんの病理診断に有用である。 しかし、専門の研究室や機器が必要で、時間集約的で、再現が難しい。 したがって、長期的な目的は、免疫組織化学的染色を再現するデジタル方法を提供することである。 生成的逆境ネットワークは、ある画像タイプを別の画像タイプにマッピングするのに非常に進歩し、ヘマトキシリンとエオシンからの免疫染色を推測する可能性が示された。 しかし, 病理画像を用いた場合, 本来のデータには存在しない構造を創り出すことができるため, 重大な弱点がある。 CycleGANは、病理画像マッピングにおいて発明された組織構造を緩和することができるが、不正確な染色の領域を生成するために関連する沈着を有する。 本稿では,CycleGANの損失関数を改良し,組織構造を維持しながら現実的な染色複製を強制することにより,病理画像のマッピング能力を向上させる。 本手法は, モデルトレーニング中の構造や染色を考慮し, 他者を改良する。 仮想免疫組織化学の精度を評価するための新しい手法とともに,fr\'echetインセプション距離を用いてネットワークの評価を行った。 これにより、カラーデコンボリューション、しきい値、ソレンセン・ディス係数を用いて、推定された真理画像中の各染色成分の重なりを評価する。 その結果, 実AE1/AE3スライドと比較して, 仮想染色のDice係数は0.78であった。 これは未調整のCycleGANのスコア0.74よりも優れていた。 さらに再建のためのFr'echet開始距離を76.47から74.54に改善した。 そこで我々は,他の免疫染色剤や腫瘍に拡張し,再現性,迅速,容易な免疫組織化学を世界中に提供できる仮想修復の進歩について述べる。

Immunohistochemistry is a valuable diagnostic tool for cancer pathology. However, it requires specialist labs and equipment, is time-intensive, and is difficult to reproduce. Consequently, a long term aim is to provide a digital method of recreating physical immunohistochemical stains. Generative Adversarial Networks have become exceedingly advanced at mapping one image type to another and have shown promise at inferring immunostains from haematoxylin and eosin. However, they have a substantial weakness when used with pathology images as they can fabricate structures that are not present in the original data. CycleGANs can mitigate invented tissue structures in pathology image mapping but have a related disposition to generate areas of inaccurate staining. In this paper, we describe a modification to the loss function of a CycleGAN to improve its mapping ability for pathology images by enforcing realistic stain replication while retaining tissue structure. Our approach improves upon others by considering structure and staining during model training. We evaluated our network using the Fr\'echet Inception distance, coupled with a new technique that we propose to appraise the accuracy of virtual immunohistochemistry . This assesses the overlap between each stain component in the inferred and ground truth images through colour deconvolution, thresholding and the Sorensen-Dice coefficient. Our modified loss function resulted in a Dice coefficient for the virtual stain of 0.78 compared with the real AE1/AE3 slide. This was superior to the unaltered CycleGAN's score of 0.74. Additionally, our loss function improved the Fr\'echet Inception distance for the reconstruction to 74.54 from 76.47. We, therefore, describe an advance in virtual restaining that can extend to other immunostains and tumour types and deliver reproducible, fast and readily accessible immunohistochemistry worldwide.
翻訳日:2022-04-15 21:43:40 公開日:2022-04-14
# (参考訳) ULF: Cross-Validation を用いた非教師付きラベリング関数補正 [全文訳有]

ULF: Unsupervised Labeling Function Correction using Cross-Validation for Weak Supervision ( http://arxiv.org/abs/2204.06863v1 )

ライセンス: CC BY 4.0
Anastasiia Sedova, Benjamin Roth(参考訳) 高価で時間を要する手動データラベリングを克服する方法は、監督の弱い - 事前に定義されたラベル付け関数セット(LF)を通じてデータサンプルを自動的にアノテーションする。 そこで本研究では,k-foldcross-validat ionの原理に基づく弱監視のための雑音低減手法について検討する。 特に,手動で注釈付きデータの誤検出を行う2つのフレームワークを弱教師付き設定に拡張する。 本手法は,一致したlf情報を活用することで,より正確に雑音サンプルを検出できる。 また,信頼性の高いLF-to-classes結合行列を推定することにより,クラスへのLFの割り当てを洗練させる,ULFと呼ばれる弱い注釈付きデータを復調するアルゴリズムも導入する。 いくつかのデータセットの評価は、ULFが手動でラベル付けされたデータを用いることなく、弱教師付き学習を改善することを示す。

A way to overcome expensive and time-consuming manual data labeling is weak supervision - automatic annotation of data samples via a predefined set of labeling functions (LFs), rule-based mechanisms that generate potentially erroneous labels. In this work, we investigate noise reduction techniques for weak supervision based on the principle of k-fold cross-validation. In particular, we extend two frameworks for detecting the erroneous samples in manually annotated data to the weakly supervised setting. Our methods profit from leveraging the information about matching LFs and detect noisy samples more accurately. We also introduce a new algorithm for denoising the weakly annotated data called ULF, that refines the allocation of LFs to classes by estimating the reliable LFs-to-classes joint matrix. Evaluation on several datasets shows that ULF successfully improves weakly supervised learning without using any manually labeled data.
翻訳日:2022-04-15 21:16:20 公開日:2022-04-14
# (参考訳) 確率的プログラムのプログラム解析

Program Analysis of Probabilistic Programs ( http://arxiv.org/abs/2204.06868v1 )

ライセンス: CC BY 4.0
Maria I. Gorinova(参考訳) 確率的プログラミング(probabilistic programming)は、確率的モデリングと確率的推論を分離することで、統計解析をより使いやすくする分野である。 実際にはこの切り離しは難しい。 単一の推論アルゴリズムを、信頼性、効率性、ブラックボックス、一般的な確率的プログラミングバックエンドとして使用することはできない。 確率型プログラミング言語は、与えられた問題に適用する1つのアルゴリズムを選択し、その制限を継承する。 確率的プログラミングの形式化と推論の効率向上の両面でかなりの作業が行われているが、その基礎となる推論アルゴリズムをよりよく活用するために、プログラム構造を形式的に解析することで、利用可能なプログラム構造を利用する作業は少ない。 この論文は,プログラム解析を用いて確率的プログラミングを改善することを目的とした3つの新しい手法(静的および動的)を提示する。 このテクニックは確率的プログラムを分析し、推論をより効率的にするためにそれを適用する。

Probabilistic programming is a growing area that strives to make statistical analysis more accessible, by separating probabilistic modelling from probabilistic inference. In practice this decoupling is difficult. No single inference algorithm can be used as a probabilistic programming back-end that is simultaneously reliable, efficient, black-box, and general. Probabilistic programming languages often choose a single algorithm to apply to a given problem, thus inheriting its limitations. While substantial work has been done both to formalise probabilistic programming and to improve efficiency of inference, there has been little work that makes use of the available program structure, by formally analysing it, to better utilise the underlying inference algorithm. This dissertation presents three novel techniques (both static and dynamic), which aim to improve probabilistic programming using program analysis. The techniques analyse a probabilistic program and adapt it to make inference more efficient, sometimes in a way that would have been tedious or impossible to do by hand.
翻訳日:2022-04-15 20:59:56 公開日:2022-04-14
# (参考訳) 弱監視対象検出のための自己知識蒸留による空間的投票 [全文訳有]

Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly Supervised Object Detection ( http://arxiv.org/abs/2204.06899v1 )

ライセンス: CC BY 4.0
Ze Chen, Zhihang Fu, Jianqiang Huang, Mingyuan Tao, Rongxin Jiang, Xiang Tian, Yaowu Chen and Xian-sheng Hua(参考訳) 画像レベルのアノテーションのみを使用してオブジェクト検出モデルをトレーニングする効果的な方法であるweakly supervised object detection (wsod)は、研究者から注目を集めている。 しかし、既存のほとんどのメソッドは、MIL(Multiple instance learning)に基づいており、全てのオブジェクトのコンテンツ全体ではなく、聖なるオブジェクトの識別部分にインスタンスをローカライズする傾向がある。 本稿では,自己知識蒸留ネットワーク(slv-sd net)を用いた空間的確率投票と呼ばれるwsodフレームワークを提案する。 本稿では,空間的確率投票(slv)モジュールを導入し,境界付きボックスアノテーションを使わずに地域提案ローカライゼーションを収束させる。 具体的には、訓練中の全てのイテレーションにおいて、与えられた画像内のすべての領域の提案は、空間次元における各カテゴリの可能性が投票される投票として機能する。 エリアのアライメントを大きな確率値で拡張した後、投票結果はバウンディングボックスとして正規化され、最終的な分類とローカライゼーションに使用される。 また,slvに基づいて,与えられた画像の特徴表現を洗練するための自己認識蒸留(sd)モジュールを提案する。 SLVモジュールによって生成された可能性マップは、バックボーンネットワークの機能学習を監督するために使用され、ネットワークが画像のより広い、より多様な領域に参加するように促される。 PASCAL VOC 2007/2012およびMS-COCOデータセットの大規模な実験は、SLV-SD Netの優れた性能を示している。 さらに、SLV-SD Netはこれらのベンチマークで新しい最先端の結果を生成する。

Weakly supervised object detection (WSOD), which is an effective way to train an object detection model using only image-level annotations, has attracted considerable attention from researchers. However, most of the existing methods, which are based on multiple instance learning (MIL), tend to localize instances to the discriminative parts of salient objects instead of the entire content of all objects. In this paper, we propose a WSOD framework called the Spatial Likelihood Voting with Self-knowledge Distillation Network (SLV-SD Net). In this framework, we introduce a spatial likelihood voting (SLV) module to converge region proposal localization without bounding box annotations. Specifically, in every iteration during training, all the region proposals in a given image act as voters voting for the likelihood of each category in the spatial dimensions. After dilating the alignment on the area with large likelihood values, the voting results are regularized as bounding boxes, which are then used for the final classification and localization. Based on SLV, we further propose a self-knowledge distillation (SD) module to refine the feature representations of the given image. The likelihood maps generated by the SLV module are used to supervise the feature learning of the backbone network, encouraging the network to attend to wider and more diverse areas of the image. Extensive experiments on the PASCAL VOC 2007/2012 and MS-COCO datasets demonstrate the excellent performance of SLV-SD Net. In addition, SLV-SD Net produces new state-of-the-art results on these benchmarks.
翻訳日:2022-04-15 20:58:26 公開日:2022-04-14
# (参考訳) 深部強化学習によるマルチキュービットシステムへの効率的かつ実用的な量子コンパイラ [全文訳有]

Efficient and practical quantum compiler towards multi-qubit systems with deep reinforcement learning ( http://arxiv.org/abs/2204.06904v1 )

ライセンス: CC BY 4.0
Qiuhao Chen, Yuxuan Du, Qi Zhao, Yuling Jiao, Xiliang Lu, Xingyao Wu(参考訳) 効率的な量子コンパイル戦術は、複雑な量子アルゴリズムを実行する量子コンピュータの能力を大幅に向上させる。 その基本的な重要性から、近年多くの量子コンパイラが設計されている。 しかし、現在のプロトコルには、低最適性、高い推論時間、スケーラビリティの制限、普遍性の欠如といったいくつかの注意点がある。 これらの欠陥を補うために、先進的な深部強化学習(RL)技術、すなわちデータ生成、深部Q-ラーニング、AQ*探索を補助する効率的で実用的な量子コンパイラを考案する。 このように、プロトコルは様々な量子マシンと互換性があり、マルチ量子ビット演算子のコンパイルに使用することができる。 我々は,逆閉かつ逆自由な普遍基底集合を持つ量子作用素のコンパイルにおける提案手法の性能を体系的に評価した。 単一キュービット演算子のコンパイル作業において,提案手法は他のRLベースの量子コンパイラよりも,シーケンス長と推論時間のコンパイルに優れる。 一方、出力解はソロヴィ・キタエフの定理によって保証されるほぼ最適である。 特に、逆フリーな普遍基底集合の場合、達成されたシーケンス長の複雑性は逆ベースの設定に匹敵し、以前の手法を劇的に進化させる。 これらの経験的な結果は、逆自由ソロヴィ・キタエフの定理の改善に寄与する。 さらに、RLベースの量子コンパイラを用いて2量子ビット演算子をコンパイルする方法を初めて示す。 その結果、rlと量子コンパイルを統合して効率と実用性を統一し、量子の利点を探求する道を開くことができた。

Efficient quantum compiling tactics greatly enhance the capability of quantum computers to execute complicated quantum algorithms. Due to its fundamental importance, a plethora of quantum compilers has been designed in past years. However, there are several caveats to current protocols, which are low optimality, high inference time, limited scalability, and lack of universality. To compensate for these defects, here we devise an efficient and practical quantum compiler assisted by advanced deep reinforcement learning (RL) techniques, i.e., data generation, deep Q-learning, and AQ* search. In this way, our protocol is compatible with various quantum machines and can be used to compile multi-qubit operators. We systematically evaluate the performance of our proposal in compiling quantum operators with both inverse-closed and inverse-free universal basis sets. In the task of single-qubit operator compiling, our proposal outperforms other RL-based quantum compilers in the measure of compiling sequence length and inference time. Meanwhile, the output solution is near-optimal, guaranteed by the Solovay-Kitaev theorem. Notably, for the inverse-free universal basis set, the achieved sequence length complexity is comparable with the inverse-based setting and dramatically advances previous methods. These empirical results contribute to improving the inverse-free Solovay-Kitaev theorem. In addition, for the first time, we demonstrate how to leverage RL-based quantum compilers to accomplish two-qubit operator compiling. The achieved results open an avenue for integrating RL with quantum compiling to unify efficiency and practicality and thus facilitate the exploration of quantum advantages.
翻訳日:2022-04-15 20:36:16 公開日:2022-04-14
# (参考訳) soccernet-tracking: 複数のオブジェクト追跡データセットとサッカービデオのベンチマーク [全文訳有]

SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos ( http://arxiv.org/abs/2204.06918v1 )

ライセンス: CC BY 4.0
Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck(参考訳) サッカービデオ中のオブジェクトを追跡することは、選手とチームの統計を収集する上で非常に重要である。 ビデオ処理は、侵略的なセンサーを必要とせずに、これらの情報を抽出するのに役立ち、スタジアムのどのチームにも適用できます。 しかし、学習可能なモデルとベンチマークをトレーニングし、共通のテストベッドでメソッドを評価するデータセットの可用性は非常に限られている。 そこで本研究では, サッカーシナリオを代表し, 長期追跡に45分間のハーフタイムを要した, 200のシーケンスからなる複数物体追跡のための新しいデータセットを提案する。 データセットはバウンディングボックスとトラックレットIDで完全に注釈付けされており、サッカー領域におけるMOTベースラインのトレーニングと、分離したチャレンジセット上でそれらのメソッドの完全なベンチマークを可能にします。 分析の結果,サッカービデオにおける複数の選手,審判,ボール追跡は,高速な動作や激しい閉塞のシナリオにおいていくつかの改善が必要であり,解決には程遠いことがわかった。

Tracking objects in soccer videos is extremely important to gather both player and team statistics, whether it is to estimate the total distance run, the ball possession or the team formation. Video processing can help automating the extraction of those information, without the need of any invasive sensor, hence applicable to any team on any stadium. Yet, the availability of datasets to train learnable models and benchmarks to evaluate methods on a common testbed is very limited. In this work, we propose a novel dataset for multiple object tracking composed of 200 sequences of 30s each, representative of challenging soccer scenarios, and a complete 45-minutes half-time for long-term tracking. The dataset is fully annotated with bounding boxes and tracklet IDs, enabling the training of MOT baselines in the soccer domain and a full benchmarking of those methods on our segregated challenge sets. Our analysis shows that multiple player, referee and ball tracking in soccer videos is far from being solved, with several improvement required in case of fast motion or in scenarios of severe occlusion.
翻訳日:2022-04-15 19:56:07 公開日:2022-04-14
# (参考訳) 対話型推薦システムのための統合型マルチタスク学習フレームワーク [全文訳有]

A Unified Multi-task Learning Framework for Multi-goal Conversational Recommender Systems ( http://arxiv.org/abs/2204.06923v1 )

ライセンス: CC BY 4.0
Yang Deng, Wenxuan Zhang, Weiwen Xu, Wenqiang Lei, Tat-Seng Chua, Wai Lam(参考訳) 近年,多言語対話型レコメンデーションシステム(mg-crs)の開発が進み,ユーザの興味を積極的に惹きつけるとともに,複数の会話目標と多様な話題を持つユーザインタラクションを自然にリードしている。 mg-crsには,目標計画,トピック予測,項目推薦,応答生成といった4つのタスクが関与することが多い。 既存の研究はこれらの課題のいくつかにのみ対処している。 MG-CRSの全体的な問題に対処するため、各タスクが相互依存を考慮せずに独立して取り組まれるモジュール化されたフレームワークが採用されている。 本研究では,Unified MultI-goal conversational recommeNDerシステム,すなわちUniMINDを提案する。 具体的には、これらの4つのタスクを異なる定式化で同じシーケンス対シーケンス(Seq2Seq)パラダイムに統一する。 プロンプトベースの学習戦略について検討し,マルチタスク学習の能力を統一モデルに付与する。 最後に、全体的な学習と推論手順は、マルチタスク学習、プロンプトベースのチューニング、推論を含む3つの段階からなる。 2つのMG-CRSベンチマーク(DuRecDialとTG-ReDial)の実験結果から、UniMINDは統一されたモデルで全てのタスクで最先端のパフォーマンスを達成することが示された。 MG-CRSの新しい視点を包括的に分析し,議論する。

Recent years witnessed several advances in developing multi-goal conversational recommender systems (MG-CRS) that can proactively attract users' interests and naturally lead user-engaged dialogues with multiple conversational goals and diverse topics. Four tasks are often involved in MG-CRS, including Goal Planning, Topic Prediction, Item Recommendation, and Response Generation. Most existing studies address only some of these tasks. To handle the whole problem of MG-CRS, modularized frameworks are adopted where each task is tackled independently without considering their interdependencies. In this work, we propose a novel Unified MultI-goal conversational recommeNDer system, namely UniMIND. In specific, we unify these four tasks with different formulations into the same sequence-to-sequence (Seq2Seq) paradigm. Prompt-based learning strategies are investigated to endow the unified model with the capability of multi-task learning. Finally, the overall learning and inference procedure consists of three stages, including multi-task learning, prompt-based tuning, and inference. Experimental results on two MG-CRS benchmarks (DuRecDial and TG-ReDial) show that UniMIND achieves state-of-the-art performance on all tasks with a unified model. Extensive analyses and discussions are provided for shedding some new perspectives for MG-CRS.
翻訳日:2022-04-15 19:37:51 公開日:2022-04-14
# (参考訳) BEHAVE:人間のオブジェクトインタラクションを追跡するデータセットと方法 [全文訳有]

BEHAVE: Dataset and Method for Tracking Human Object Interactions ( http://arxiv.org/abs/2204.06950v1 )

ライセンス: CC BY 4.0
Bharat Lal Bhatnagar, Xianghui Xie, Ilya A. Petrov, Cristian Sminchisescu, Christian Theobalt, Gerard Pons-Moll(参考訳) 自然環境における人間と物体の相互作用のモデリングは、ゲーム、仮想現実、混合現実、および人間の行動分析と人間とロボットのコラボレーションを含む多くのアプリケーションの中心である。 この困難な運用シナリオでは、多数のオブジェクト、シーン、人間のアクションを一般化する必要があります。 残念ながらそのようなデータセットは存在しない。 さらに、4dスキャナとマーカーベースのキャプチャシステムを除外するさまざまな自然環境において、このデータを取得する必要がある。 本稿では,マルチビュー rgbd フレームと対応する 3d smpl と object との接点を対応づけた,最初の人体と物体の対話データセットである behavior dataset について述べる。 約15kフレームを5箇所で記録し、8人の被験者が20の共通物体と幅広い相互作用を行う。 このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。 我々の重要な洞察は、人間と物体から統計体モデルへの対応を予測し、相互作用中に人間と物体の接触を得ることである。 我々のアプローチは、人間と物体だけでなく、表面接触としてモデル化された相互作用を3Dで記録し、追跡することができる。 私たちのコードとデータは以下の通りです。

Modelling interactions between humans and objects in natural environments is central to many applications including gaming, virtual and mixed reality, as well as human behavior analysis and human-robot collaboration. This challenging operation scenario requires generalization to vast number of objects, scenes, and human actions. Unfortunately, there exist no such dataset. Moreover, this data needs to be acquired in diverse natural environments, which rules out 4D scanners and marker based capture systems. We present BEHAVE dataset, the first full body human- object interaction dataset with multi-view RGBD frames and corresponding 3D SMPL and object fits along with the annotated contacts between them. We record around 15k frames at 5 locations with 8 subjects performing a wide range of interactions with 20 common objects. We use this data to learn a model that can jointly track humans and objects in natural environments with an easy-to-use portable multi-camera setup. Our key insight is to predict correspondences from the human and the object to a statistical body model to obtain human-object contacts during interactions. Our approach can record and track not just the humans and objects but also their interactions, modeled as surface contacts, in 3D. Our code and data can be found at: http://virtualhumans .mpi-inf.mpg.de/beha ve
翻訳日:2022-04-15 19:11:54 公開日:2022-04-14
# (参考訳) LEFM-Nets:凍結領域の病理像分割のための学習可能な特徴マップ深部ネットワーク [全文訳有]

LEFM-Nets: Learnable Explicit Feature Map Deep Networks for Segmentation of Histopathological Images of Frozen Sections ( http://arxiv.org/abs/2204.06955v1 )

ライセンス: CC BY 4.0
Dario Sitnik and Ivica Kopriva(参考訳) 医療画像の正確な分割は疾患の診断と治療に不可欠である。 これらの問題はディープネットワーク(DN)のような非常に複雑なモデルによって解決され、トレーニングには大量のラベル付きデータを必要とする。 したがって、多くのDNは、説明や解釈が難しい意思決定プロセスを持つタスクや画像のモダリティ固有のアーキテクチャを持っている。 本稿では,学習可能な明示的特徴写像(LEFM)層によって誘導される低次元部分空間に既存のDNを埋め込むフレームワークを提案する。 既存のDNと比較して、フレームワークは1つのハイパーパラメータを追加し、学習可能なパラメータの数をわずかに増やしている。 本手法は, 染色部の色病理像などの低次元医用画像の分画を目的としたものであるが, 限定的ではない。 LEFM層の特徴は元の特徴の多項式関数であるため,提案したLEFM-Netはネットワーク決定の解釈可能性に寄与する。 本研究では、LEFMをDeepLabv3+、UNet、UNet++、MA-netといった既知のネットワークと組み合わせた。 ヘマトキシリンおよびエオシン(H&E)染色凍結部位の画像から,肝臓の大腸腺癌の分画に新しいLEFM-Netを応用した。 LEFM-Netは、10個のヒト臓器のH&E染色された凍結された部分の画像から核のセグメンテーションをテストする。 最初の問題として、LEFM-Netsは、従来のネットワークに比べて、マイクロバランスの正確さとF_1$スコアで統計的に有意な性能向上を実現した。 LEFM-Netsは2つ目の問題で元のネットワークに比べて性能が向上した。 ソースコードはhttps://github.com/d sitnik/lefm。

Accurate segmentation of medical images is essential for diagnosis and treatment of diseases. These problems are solved by highly complex models, such as deep networks (DN), requiring a large amount of labeled data for training. Thereby, many DNs possess task- or imaging modality specific architectures with a decision-making process that is often hard to explain and interpret. Here, we propose a framework that embeds existing DNs into a low-dimensional subspace induced by the learnable explicit feature map (LEFM) layer. Compared to the existing DN, the framework adds one hyperparameter and only modestly increase the number of learnable parameters. The method is aimed at, but not limited to, segmentation of low-dimensional medical images, such as color histopathological images of stained frozen sections. Since features in the LEFM layer are polynomial functions of the original features, proposed LEFM-Nets contribute to the interpretability of network decisions. In this work, we combined LEFM with the known networks: DeepLabv3+, UNet, UNet++ and MA-net. New LEFM-Nets are applied to the segmentation of adenocarcinoma of a colon in a liver from images of hematoxylin and eosin (H&E) stained frozen sections. LEFM-Nets are also tested on nuclei segmentation from images of H&E stained frozen sections of ten human organs. On the first problem, LEFM-Nets achieved statistically significant performance improvement in terms of micro balanced accuracy and $F_1$ score than original networks. LEFM-Nets achieved only better performance in comparison with the original networks on the second problem. The source code is available at https://github.com/d sitnik/lefm.
翻訳日:2022-04-15 18:52:40 公開日:2022-04-14
# (参考訳) オンライン未確認顧客レビューからの潜在アスペクト検出 [全文訳有]

Latent Aspect Detection from Online Unsolicited Customer Reviews ( http://arxiv.org/abs/2204.06964v1 )

ライセンス: CC BY-SA 4.0
Mohammad Forouhesh, Arash Mansouri, Hossein Fani(参考訳) レビュー分析のコンテキストにおいて、アスペクトは、顧客が意見や感情をターゲットとする製品やサービスの機能である。 アスペクト検出は、プロダクトオーナやサービスプロバイダが欠点を特定し、顧客のニーズを優先し、収益を維持し、顧客の混乱を緩和するのに役立つ。 既存の手法は、アスペクトがレビューに潜んでいるときに不足する教師あり学習法を訓練することで、アスペクトの表面形態を検出することに重点を置いている。 本稿では,アスペクトの潜在発生を教師なしで抽出する手法を提案する。 具体的には、レビューを書く際に、顧客が2段階の仮説生成プロセスを行うと仮定する:(1)製品やサービスで利用可能な側面の集合の側面を決定すること、(2)言語で利用可能な全ての単語の集合から選択された側面とより相互に関連のある意見語を書くこと。 我々は遅延ディリクレアロケーションを用いて、レビューを生成するために潜在アスペクト分布を学習する。 評価実験の結果, 提案手法は, 表面形状を伴わず, アスペクトが潜伏している場合に, 美術品の状態を改善することができることがわかった。

Within the context of review analytics, aspects are the features of products and services at which customers target their opinions and sentiments. Aspect detection helps product owners and service providers to identify shortcomings and prioritize customers' needs, and hence, maintain revenues and mitigate customer churn. Existing methods focus on detecting the surface form of an aspect by training supervised learning methods that fall short when aspects are latent in reviews. In this paper, we propose an unsupervised method to extract latent occurrences of aspects. Specifically, we assume that a customer undergoes a two-stage hypothetical generative process when writing a review: (1) deciding on an aspect amongst the set of aspects available for the product or service, and (2) writing the opinion words that are more interrelated to the chosen aspect from the set of all words available in a language. We employ latent Dirichlet allocation to learn the latent aspects distributions for generating the reviews. Experimental results on benchmark datasets show that our proposed method is able to improve the state of the art when the aspects are latent with no surface form in reviews.
翻訳日:2022-04-15 18:33:13 公開日:2022-04-14
# (参考訳) 視覚対話モデルにスコアキーピングは可能か 共有知識をインクリメンタルにエンコードする対話表現の検討 [全文訳有]

Can Visual Dialogue Models Do Scorekeeping? Exploring How Dialogue Representations Incrementally Encode Shared Knowledge ( http://arxiv.org/abs/2204.06970v1 )

ライセンス: CC BY 4.0
Brielen Madureira, David Schlangen(参考訳) 認知的に妥当な視覚対話モデルは、共有された事実のメンタルスコアボードを対話コンテキストに保持すべきである。 本稿では,VisDialデータセットで事前訓練されたモデルが,スコアスコアリングを適切に行うための表現を段階的に構築する理論に基づく評価手法を提案する。 私たちの結論は、対話に沿って共有されたステートメントとプライベートに知られたステートメントを区別できる能力は、分析されたモデルに適度に存在するが、必ずしも漸進的に一貫性があるとは限らない。

Cognitively plausible visual dialogue models should keep a mental scoreboard of shared established facts in the dialogue context. We propose a theory-based evaluation method for investigating to what degree models pretrained on the VisDial dataset incrementally build representations that appropriately do scorekeeping. Our conclusion is that the ability to make the distinction between shared and privately known statements along the dialogue is moderately present in the analysed models, but not always incrementally consistent, which may partially be due to the limited need for grounding interactions in the original task.
翻訳日:2022-04-15 18:25:17 公開日:2022-04-14
# (参考訳) HyDe:初のオープンソース、Pythonベース、GPUアクセラレーションによるハイパースペクトルデノイングパッケージ [全文訳有]

HyDe: The First Open-Source, Python-Based, GPU-Accelerated Hyperspectral Denoising Package ( http://arxiv.org/abs/2204.06979v1 )

ライセンス: CC BY 4.0
Daniel Coquelin, Behnood Rasti, Markus G\"otz, Pedram Ghamisi, Richard Gloaguen, and Achim Streit(参考訳) 他の物理機器と同様に、ハイパースペクトルカメラは取得したデータの様々な種類のノイズを誘導する。 したがって、ハイパースペクトラルデノージングはハイパースペクトラル画像(hsis)を分析する上で重要なステップである。 従来の計算手法ではGPUを使って効率を向上させることはほとんどなく、完全にオープンソースではない。 あるいは、ディープラーニングベースのメソッドは、しばしばオープンソースでGPUを使用するが、実際のアプリケーションに対するトレーニングと利用は、多くの研究者にとって簡単ではない。 そこで,我々はHyDeを提案する。HyDeはPythonベースのハイパースペクトル画像デノゲーションツールボックスで,使い勝手の良い環境で大規模な手法を提供することを目的としている。 HyDeには、低ランクウェーブレットベースの方法からディープニューラルネットワーク(DNN)モデルまで、さまざまな方法が含まれている。 HyDeのインターフェースは、これらのメソッドの相互運用性と基礎となる関数のパフォーマンスを劇的に改善する。 実際、これらの手法はオリジナルの実装と同じようなhsi同期性能を維持しつつ、エネルギーの約10分の1を消費している。 さらに,訓練データセットと空間的に無関係なhsisをデノーミングするためのdnnの訓練方法,すなわち地上レベルのhsisのトレーニングと,航空機やドローン、宇宙飛行など他の視点でdnnをデノーミングする手法を提案する。 トレーニングされたDNNを利用するために,40GB以上のHSIを効果的に識別するスライディングウインドウ法を提案する。 パッケージは以下の通りである。 \url{https://github.com/H elmholtz-AI-Energy/H yDe}。

As with any physical instrument, hyperspectral cameras induce different kinds of noise in the acquired data. Therefore, Hyperspectral denoising is a crucial step for analyzing hyperspectral images (HSIs). Conventional computational methods rarely use GPUs to improve efficiency and are not fully open-source. Alternatively, deep learning-based methods are often open-source and use GPUs, but their training and utilization for real-world applications remain non-trivial for many researchers. Consequently, we propose HyDe: the first open-source, GPU-accelerated Python-based, hyperspectral image denoising toolbox, which aims to provide a large set of methods with an easy-to-use environment. HyDe includes a variety of methods ranging from low-rank wavelet-based methods to deep neural network (DNN) models. HyDe's interface dramatically improves the interoperability of these methods and the performance of the underlying functions. In fact, these methods maintain similar HSI denoising performance to their original implementations while consuming nearly ten times less energy. Furthermore, we present a method for training DNNs for denoising HSIs which are not spatially related to the training dataset, i.e., training on ground-level HSIs for denoising HSIs with other perspectives including airborne, drone-borne, and space-borne. To utilize the trained DNNs, we show a sliding window method to effectively denoise HSIs which would otherwise require more than 40 GB. The package can be found at: \url{https://github.com/H elmholtz-AI-Energy/H yDe}.
翻訳日:2022-04-15 18:07:02 公開日:2022-04-14
# (参考訳) 複雑値畳み込みニューラルネットワークによる大気乱流除去 [全文訳有]

Atmospheric Turbulence Removal with Complex-Valued Convolutional Neural Network ( http://arxiv.org/abs/2204.06989v1 )

ライセンス: CC BY 4.0
Nantheera Anantrasirichai(参考訳) 大気圧は視覚画像を歪め、人間と機械の両方による情報解釈には常に問題となる。 大気乱流の歪みを取り除くための最もよく開発されたアプローチはモデルベースである。 しかし,これらの手法では,高い計算能力と大容量メモリを必要とする。 深層学習に基づくアプローチが注目されるようになったが、現在は静的シーンのみに効率よく機能している。 本稿では,動的シーンをサポートするための短い時間スパンニングを提供する,新しい学習ベースのフレームワークを提案する。 我々は,大気乱流によって変化する相情報として複雑な値の畳み込みを利用する。 2つの連結モジュールが提案されている。 第1のモジュールは、幾何学的歪みを取り除くことを目的としており、メモリが十分であれば、第2のモジュールはビデオの微細な詳細を洗練するために適用される。 実験の結果, 提案手法は大気乱流の歪みを効果的に軽減し, 既存手法よりも優れていた。

Atmospheric turbulence distorts visual imagery and is always problematic for information interpretation by both human and machine. Most well-developed approaches to remove atmospheric turbulence distortion are model-based. However, these methods require high computation and large memory preventing their feasibility of real-time operation. Deep learning-based approaches have hence gained more attention but currently work efficiently only on static scenes. This paper presents a novel learning-based framework offering short temporal spanning to support dynamic scenes. We exploit complex-valued convolutions as phase information, altered by atmospheric turbulence, is captured better than using ordinary real-valued convolutions. Two concatenated modules are proposed. The first module aims to remove geometric distortions and, if enough memory, the second module is applied to refine micro details of the videos. Experimental results show that our proposed framework efficiently mitigate the atmospheric turbulence distortion and significantly outperforms the existing methods.
翻訳日:2022-04-15 17:59:20 公開日:2022-04-14
# (参考訳) 緑内障診断における幾何学的深層学習の医療応用 [全文訳有]

Medical Application of Geometric Deep Learning for the Diagnosis of Glaucoma ( http://arxiv.org/abs/2204.07004v1 )

ライセンス: CC BY 4.0
Alexandre H. Thiery, Fabian Braeu, Tin A. Tun, Tin Aung, Michael J.A. Girard(参考訳) 目的:(1)視神経頭(onh)の単一光コヒーレンス断層撮影(oct)3dスキャンによる緑内障診断における幾何学的ディープラーニング(pointnet)の性能評価,(2)標準3d畳み込みニューラルネットワーク(cnn)で得られたものとの比較,および金標準緑内障パラメータ,すなわち網膜神経線維層(rnfl)厚との比較。 方法:ONHの3DラスタスキャンをSpectralis OCTで477緑内障と2,296名の非緑内障患者でシンガポール国立眼センターで取得した。 すべてのボリュームがディープラーニングを使用して自動的に分割され、rnfl、prelamina、lamina cribrosa(lc)を含む7つの主要な神経および結合組織が識別された。 各ONHは3D点雲として表され、組織の境界からランダムに1000点が選択された。 問題を単純化するため、全てのオンポイント雲はブラッホの膜開口面と中心に関して整列された。 次に、幾何学的深層学習(PointNet)を用いて、1つのOCT点雲から緑内障の診断を行った。 本手法の性能は3次元cnn, rnfl厚みと比較した。 結果: PointNetは3Dポイントクラウド(AUC=95%)で表されるONHのみから頑健な緑内障の診断が可能であった。 PointNetの性能は標準の3D CNN (AUC=87%) とRAFの厚さのみ (AUC=80%) より優れていた。 考察: 緑内障領域における幾何学的深層学習の応用のための基礎的証明を提供する。 提案手法では,3次元CNNよりも優れた情報を入力として必要としており,RAF厚みだけで得られるAUCよりも優れている。 幾何学的深層学習は眼科領域で広く応用できる可能性がある。

Purpose: (1) To assess the performance of geometric deep learning (PointNet) in diagnosing glaucoma from a single optical coherence tomography (OCT) 3D scan of the optic nerve head (ONH); (2) To compare its performance to that obtained with a standard 3D convolutional neural network (CNN), and with a gold-standard glaucoma parameter, i.e. retinal nerve fiber layer (RNFL) thickness. Methods: 3D raster scans of the ONH were acquired with Spectralis OCT for 477 glaucoma and 2,296 non-glaucoma subjects at the Singapore National Eye Centre. All volumes were automatically segmented using deep learning to identify 7 major neural and connective tissues including the RNFL, the prelamina, and the lamina cribrosa (LC). Each ONH was then represented as a 3D point cloud with 1,000 points chosen randomly from all tissue boundaries. To simplify the problem, all ONH point clouds were aligned with respect to the plane and center of Bruch's membrane opening. Geometric deep learning (PointNet) was then used to provide a glaucoma diagnosis from a single OCT point cloud. The performance of our approach was compared to that obtained with a 3D CNN, and with RNFL thickness. Results: PointNet was able to provide a robust glaucoma diagnosis solely from the ONH represented as a 3D point cloud (AUC=95%). The performance of PointNet was superior to that obtained with a standard 3D CNN (AUC=87%) and with that obtained from RNFL thickness alone (AUC=80%). Discussion: We provide a proof-of-principle for the application of geometric deep learning in the field of glaucoma. Our technique requires significantly less information as input to perform better than a 3D CNN, and with an AUC superior to that obtained from RNFL thickness alone. Geometric deep learning may have wide applicability in the field of Ophthalmology.
翻訳日:2022-04-15 17:45:14 公開日:2022-04-14
# (参考訳) ニューロイメージングに応用した機械学習手法の解釈可能性

Interpretability of Machine Learning Methods Applied to Neuroimaging ( http://arxiv.org/abs/2204.07005v1 )

ライセンス: CC BY 4.0
Elina Thibeau-Sutre, Sasha Collin, Ninon Burgos, Olivier Colliot(参考訳) 深層学習法は、自然画像の処理に非常に人気があり、その後、神経イメージングの分野に適応した。 これらの手法は透明でないため,信頼性の確認と信頼性確保には解釈可能性法が必要である。 実際、ディープラーニングモデルは、トレーニングセットのバイアスを利用して、無関係な機能を使用しても高いパフォーマンスが得られることが示されている。 このような望ましくない状況は、解釈可能性法を用いて検出することができる。 近年,ニューラルネットワークの解釈手法が数多く提案されている。 しかし、この領域はまだ成熟していない。 機械学習のユーザは、モデルを解釈するために、どの方法を選択し、その信頼性を評価するかという2つの大きな問題に直面している。 本稿では,これらの質問に対する回答を,その信頼性を評価するために開発された最も一般的な解釈方法と指標,および神経画像の文脈におけるそれらの応用とベンチマークを提示し,提示することを目的とする。 これは徹底的な調査ではなく、最も代表的で関連性の高い研究に集中することを目的としていた。

Deep learning methods have become very popular for the processing of natural images, and were then successfully adapted to the neuroimaging field. As these methods are non-transparent, interpretability methods are needed to validate them and ensure their reliability. Indeed, it has been shown that deep learning models may obtain high performance even when using irrelevant features, by exploiting biases in the training set. Such undesirable situations can potentially be detected by using interpretability methods. Recently, many methods have been proposed to interpret neural networks. However, this domain is not mature yet. Machine learning users face two major issues when aiming to interpret their models: which method to choose, and how to assess its reliability? Here, we aim at providing answers to these questions by presenting the most common interpretability methods and metrics developed to assess their reliability, as well as their applications and benchmarks in the neuroimaging context. Note that this is not an exhaustive survey: we aimed to focus on the studies which we found to be the most representative and relevant.
翻訳日:2022-04-15 17:30:47 公開日:2022-04-14
# (参考訳) 一般入力凸ニューラルネットワークによる学習不変性 [全文訳有]

Learning Invariances with Generalised Input-Convex Neural Networks ( http://arxiv.org/abs/2204.07009v1 )

ライセンス: CC BY 4.0
Vitali Nesterov, Fabricio Arend Torres, Monika Nagy-Huber, Maxim Samarin, Volker Roth(参考訳) 入力ベクトルから連続目標への滑らかな写像を考えると、そのような写像の下で不変な入力領域の部分空間を特徴づけることが目的である。 したがって、我々はレベル集合によって暗黙的に定義される多様体を特徴づけたい。 特に、この特徴付けは、グリッドベースの近似の構築、レベル曲線に沿った点のサンプリング、多様体上の軌跡の発見など、異なる情報データ探索タスクに特に有用であるグローバルパラメトリック形式であるべきである。 しかし、グローバルなパラメータ化は、レベルセットが連結されている場合にのみ存在する。 そこで本研究では,入力凸ネットワークを一般化する,新しいフレキシブルなニューラルネットワークのクラスを提案する。 これらのネットワークは、入力空間上の滑らかな多様体を形成する連結レベル集合を持つことを保証する関数を表す。 さらに、これらのレベルセットのグローバルなパラメータ化は常に効率的に見つけることができることを示す。 最後に,計算化学などの実世界の応用において,不変性を特徴付ける新しい手法が強力な生成データ探索ツールであることを示す。

Considering smooth mappings from input vectors to continuous targets, our goal is to characterise subspaces of the input domain, which are invariant under such mappings. Thus, we want to characterise manifolds implicitly defined by level sets. Specifically, this characterisation should be of a global parametric form, which is especially useful for different informed data exploration tasks, such as building grid-based approximations, sampling points along the level curves, or finding trajectories on the manifold. However, global parameterisations can only exist if the level sets are connected. For this purpose, we introduce a novel and flexible class of neural networks that generalise input-convex networks. These networks represent functions that are guaranteed to have connected level sets forming smooth manifolds on the input space. We further show that global parameterisations of these level sets can be always found efficiently. Lastly, we demonstrate that our novel technique for characterising invariances is a powerful generative data exploration tool in real-world applications, such as computational chemistry.
翻訳日:2022-04-15 17:28:54 公開日:2022-04-14
# (参考訳) データ拡張意味関係推論による反asianヘイトスピーチ検出 [全文訳有]

Anti-Asian Hate Speech Detection via Data Augmented Semantic Relation Inference ( http://arxiv.org/abs/2204.07010v1 )

ライセンス: CC BY 4.0
Jiaxuan Li and Yue Ning(参考訳) 近年,ソーシャルメディア上でのヘイトスピーチの普及に伴い,ヘイトスピーチの自動検出が重要な課題となり,様々なコミュニティから注目を集めている。 このタスクは、嫌がらせのある情報を含むオンライン投稿(例えばツイート)を認識することを目的としている。 短文や短文などのソーシャルメディアにおける言語の特異性は、意味論を学習し、ヘイトスピーチの識別的特徴を捉えることの難しさに繋がる。 これまでの研究では、感情のハッシュタグなどの有用なリソースを使用して、ヘイトスピーチ検出のパフォーマンスを改善してきた。 ハッシュタグは感情レキシコンや追加のコンテキスト情報として機能する入力機能として追加される。 しかし,これらの特徴を文脈を考慮せずに直接活用することは,分類器にノイズをもたらす可能性がある。 本稿では,自然言語推論フレームワークにおけるヘイトスピーチ検出を強化するために,感情ハッシュタグを活用する新しい手法を提案する。 我々は,(1)オンライン投稿と感情ハッシュタグ間の意味関係推論,(2)投稿に対する感情分類,の2つのタスクを同時に行う新しいフレームワークsricを設計した。 意味関係推論は、感情を表わす情報をオンライン投稿の表現にエンコードすることをモデルに促すことを目的としている。 実世界の2つのデータセットについて広範な実験を行い、提案フレームワークの有効性を最先端の表現学習モデルと比較した。

With the spreading of hate speech on social media in recent years, automatic detection of hate speech is becoming a crucial task and has attracted attention from various communities. This task aims to recognize online posts (e.g., tweets) that contain hateful information. The peculiarities of languages in social media, such as short and poorly written content, lead to the difficulty of learning semantics and capturing discriminative features of hate speech. Previous studies have utilized additional useful resources, such as sentiment hashtags, to improve the performance of hate speech detection. Hashtags are added as input features serving either as sentiment-lexicons or extra context information. However, our close investigation shows that directly leveraging these features without considering their context may introduce noise to classifiers. In this paper, we propose a novel approach to leverage sentiment hashtags to enhance hate speech detection in a natural language inference framework. We design a novel framework SRIC that simultaneously performs two tasks: (1) semantic relation inference between online posts and sentiment hashtags, and (2) sentiment classification on these posts. The semantic relation inference aims to encourage the model to encode sentiment-indicative information into representations of online posts. We conduct extensive experiments on two real-world datasets and demonstrate the effectiveness of our proposed framework compared with state-of-the-art representation learning models.
翻訳日:2022-04-15 17:09:07 公開日:2022-04-14
# (参考訳) 連続ドメイン一般化のための活性化回帰と作物分類への応用 [全文訳有]

Activation Regression for Continuous Domain Generalization with Applications to Crop Classification ( http://arxiv.org/abs/2204.07030v1 )

ライセンス: CC BY-SA 4.0
Samar Khanna, Bram Wallace, Kavita Bala, Bharath Hariharan(参考訳) 衛星画像の地理的ばらつきは、機械学習モデルが新しい領域に一般化する能力に影響する。 本稿では,高解像度ランドサット8衛星画像の地理的一般化を連続領域適応問題としてモデル化し,モデルが適切な領域知識でどのように一般化するかを示す。 我々は,アメリカ大陸全域に空間分布するデータセットを開発し,多スペクトル・時間分布衛星画像における地理が作物の分類に与える影響についてマクロ的な考察を行った。 本手法は汎用性の向上を実証する。 1)衛星データとともに地理的に相関した気候変数をトランスフォーマーモデルに渡す 2) これらのドメイン変数を再構築するためのモデル機能の変更。 衛星画像における地理的一般化の新たな視点と、ドメイン知識を活用するための単純かつ効果的なアプローチを提供する。 コードは \url{https://github.com/s amar-khanna/cropmap} で入手できる。

Geographic variance in satellite imagery impacts the ability of machine learning models to generalise to new regions. In this paper, we model geographic generalisation in medium resolution Landsat-8 satellite imagery as a continuous domain adaptation problem, demonstrating how models generalise better with appropriate domain knowledge. We develop a dataset spatially distributed across the entire continental United States, providing macroscopic insight into the effects of geography on crop classification in multi-spectral and temporally distributed satellite imagery. Our method demonstrates improved generalisability from 1) passing geographically correlated climate variables along with the satellite data to a Transformer model and 2) regressing on the model features to reconstruct these domain variables. Combined, we provide a novel perspective on geographic generalisation in satellite imagery and a simple-yet-effective approach to leverage domain knowledge. Code is available at: \url{https://github.com/s amar-khanna/cropmap}
翻訳日:2022-04-15 16:49:23 公開日:2022-04-14
# (参考訳) CroCo:地球観測データの局所化のためのクロスモーダルコントラスト学習 [全文訳有]

CroCo: Cross-Modal Contrastive learning for localization of Earth Observation data ( http://arxiv.org/abs/2204.07052v1 )

ライセンス: CC BY 4.0
Wei-Hsin Tseng, Ho\`ang-\^An L\^e, Alexandre Boulch, S\'ebastien Lef\`evre, Dirk Tiede(参考訳) 地上のLiDAR点雲をリモートセンシング画像上にローカライズすることに興味がある。 本研究では,航空画像上のLiDAR点雲から放射されるデジタル標高モデル(DEM)を,この問題のサブタスクに対処する。 我々は,DEMと高分解能光学画像の学習を行う対照的な学習手法を提案し,異なるデータサンプリング戦略とハイパーパラメータのフレームワークを実験した。 ベストシナリオは、トップ1スコア0.71、トップ5スコア0.81を得る。 提案手法は,ローカライズのためのRGBとDEMの機能学習を約束しており,他のデータソースにも適用可能である。 ソースコードはhttps://github.com/w tseng530/AVLocalizat ionで公開される。

It is of interest to localize a ground-based LiDAR point cloud on remote sensing imagery. In this work, we tackle a subtask of this problem, i.e. to map a digital elevation model (DEM) rasterized from aerial LiDAR point cloud on the aerial imagery. We proposed a contrastive learning-based method that trains on DEM and high-resolution optical imagery and experiment the framework on different data sampling strategies and hyperparameters. In the best scenario, the Top-1 score of 0.71 and Top-5 score of 0.81 are obtained. The proposed method is promising for feature learning from RGB and DEM for localization and is potentially applicable to other data sources too. Source code will be released at https://github.com/w tseng530/AVLocalizat ion.
翻訳日:2022-04-15 16:36:50 公開日:2022-04-14
# (参考訳) 非因果的畳み込みを用いたストリーミング型ニューラルオーディオ合成 [全文訳有]

Streamable Neural Audio Synthesis With Non-Causal Convolutions ( http://arxiv.org/abs/2204.07064v1 )

ライセンス: CC BY 4.0
Antoine Caillon and Philippe Esling(参考訳) ディープラーニングモデルは、主にオフライン推論方式で使用される。 しかし、ほとんどのクリエイティブワークフローはリアルタイムのデジタル信号処理に基づいているため、オーディオ生成装置内でのこれらのモデルの使用を強く制限する。 リカレントネットワークに基づくアプローチはこのバッファベースの計算に自然に適用できるが、畳み込みの利用は依然として深刻な課題となっている。 この問題に対処するために,因果的ストリーミング畳み込みの利用が提案されている。 しかし、これは特定の複雑なトレーニングを必要とし、結果のオーディオ品質に影響を与える可能性がある。 本稿では,非causalストリーミングモデルを作成するための新しい手法を提案する。 これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。 本手法は,学習後のモデル再構成に基づいており,因果制約を伴わずにトレーニングしたモデルをストリーミングモデルに変換することができることを示す。 本手法を並列分岐を用いた複雑なアーキテクチャに適用する方法を示す。 提案手法を評価するため,高品質なリアルタイム音声合成を実現するRAVEモデルに適用した。 我々は,複数の音楽および音声データセットに対するアプローチをテストし,重複付加法よりも高速で,生成品質に影響を与えないことを示す。 最後に、max/mspとpuredata externalsの2つのオープンソース実装と、vst audioプラグインを紹介します。 これにより、従来のデジタルオーディオワークステーションをラップトップCPU上でリアルタイムのニューラルオーディオ合成で実現することができる。

Deep learning models are mostly used in an offline inference fashion. However, this strongly limits the use of these models inside audio generation setups, as most creative workflows are based on real-time digital signal processing. Although approaches based on recurrent networks can be naturally adapted to this buffer-based computation, the use of convolutions still poses some serious challenges. To tackle this issue, the use of causal streaming convolutions have been proposed. However, this requires specific complexified training and can impact the resulting audio quality. In this paper, we introduce a new method allowing to produce non-causal streaming models. This allows to make any convolutional model compatible with real-time buffer-based processing. As our method is based on a post-training reconfiguration of the model, we show that it is able to transform models trained without causal constraints into a streaming model. We show how our method can be adapted to fit complex architectures with parallel branches. To evaluate our method, we apply it on the recent RAVE model, which provides high-quality real-time audio synthesis. We test our approach on multiple music and speech datasets and show that it is faster than overlap-add methods, while having no impact on the generation quality. Finally, we introduce two open-source implementation of our work as Max/MSP and PureData externals, and as a VST audio plugin. This allows to endow traditional digital audio workstation with real-time neural audio synthesis on a laptop CPU.
翻訳日:2022-04-15 16:26:45 公開日:2022-04-14
# (参考訳) EvoSTS予測:進化的なスパース時系列予測 [全文訳有]

EvoSTS Forecasting: Evolutionary Sparse Time-Series Forecasting ( http://arxiv.org/abs/2204.07066v1 )

ライセンス: CC BY 4.0
Ethan Jacob Moyer, Alisha Isabelle Augustin, Satvik Tripathi, Ansh Aashish Dholakia, Andy Nguyen, Isamu Mclean Isozaki, Daniel Schwartz and Edward Kim(参考訳) 本稿では,新しい進化的スパース時系列予測アルゴリズムであるevostsについて述べる。 このアルゴリズムは、学習されたスパース符号付き辞書を用いて予測された信号の再構成損失を最小化する、long short-term memory (lstm)ネットワークの進化的優先順位付けを試みる。 進化的アルゴリズムの各世代では、同じ初期重みを持つ子どもの数が生成される。 それぞれの子供はトレーニングステップを実施し、同じデータでウェイトを調整します。 確率的なバックプロパゲーションのため、子供のセットは様々なレベルのパフォーマンスを持つ様々な重量を持つ。 所定の信号辞書で再構成損失を最小化する重みは、次の世代に渡される。 第1世代と第1世代のベストパフォーマンスウェイトからの予測を比較する。 これら2世代の重量を比較しながら改善を見出した。 しかし、いくつかのパラメータとハイパーパラメータの制限のため、いくつかの重量は無視できる改善があった。 我々の知る限りでは、LSTMネットワークのような時系列予測モデルの重み付けを最適化するために、この方法でスパース符号化を使用する最初の試みである。

In this work, we highlight our novel evolutionary sparse time-series forecasting algorithm also known as EvoSTS. The algorithm attempts to evolutionary prioritize weights of Long Short-Term Memory (LSTM) Network that best minimize the reconstruction loss of a predicted signal using a learned sparse coded dictionary. In each generation of our evolutionary algorithm, a set number of children with the same initial weights are spawned. Each child undergoes a training step and adjusts their weights on the same data. Due to stochastic back-propagation, the set of children has a variety of weights with different levels of performance. The weights that best minimize the reconstruction loss with a given signal dictionary are passed to the next generation. The predictions from the best-performing weights of the first and last generation are compared. We found improvements while comparing the weights of these two generations. However, due to several confounding parameters and hyperparameter limitations, some of the weights had negligible improvements. To the best of our knowledge, this is the first attempt to use sparse coding in this way to optimize time series forecasting model weights, such as those of an LSTM network.
翻訳日:2022-04-15 16:17:13 公開日:2022-04-14
# (参考訳) 回折回転による関節深度と画像再構成のためのエンドツーエンド学習 [全文訳有]

End-to-end Learning for Joint Depth and Image Reconstruction from Diffracted Rotation ( http://arxiv.org/abs/2204.07076v1 )

ライセンス: CC BY 4.0
Mazen Mel, Muhammad Siddiqui, and Pietro Zanuttigh(参考訳) 単分子深度推定は、まだ手元にある問題の性質が不適切であるため、未解決の課題である。 深層学習に基づく手法が広範に研究され、単一のRGB入力画像における有意義で頑健な深度手がかりが欠如していても、許容できる深度推定精度が得られることが証明されている。 位相・振幅マスクを用いた符号化アパーチャベース手法は,画質の低下にともなう深さ依存性点拡散関数 (psfs) を用いて,2次元画像内の強い深さ手がかりを符号化する。 本稿では,回折回転から深度を学習するための新しいエンドツーエンド学習手法を提案する。 デフォーカスの関数として回転点スプレッド関数(RPSF)を生成する位相マスクを、深さ推定ニューラルネットワークの重みと共同最適化する。 この目的のために,アパーチャマスクの微分可能な物理モデルを導入し,カメライメージングパイプラインの正確なシミュレーションを行う。 提案手法は, 室内ベンチマークにおける単眼深度推定の課題において, 従来手法よりもはるかに少ない複雑なモデルと少ないトレーニングデータを必要とする。 さらに,非盲点および非一様画像デブロアリングモジュールを組み込んで,RPSFブル画像から鮮明なオールインフォーカス画像を取り出すことにより,画像劣化の問題に対処する。

Monocular depth estimation is still an open challenge due to the ill-posed nature of the problem at hand. Deep learning based techniques have been extensively studied and proved capable of producing acceptable depth estimation accuracy even if the lack of meaningful and robust depth cues within single RGB input images severally limits their performance. Coded aperture-based methods using phase and amplitude masks encode strong depth cues within 2D images by means of depth-dependent Point Spread Functions (PSFs) at the price of a reduced image quality. In this paper, we propose a novel end-to-end learning approach for depth from diffracted rotation. A phase mask that produces a Rotating Point Spread Function (RPSF) as a function of defocus is jointly optimized with the weights of a depth estimation neural network. To this aim, we introduce a differentiable physical model of the aperture mask and exploit an accurate simulation of the camera imaging pipeline. Our approach requires a significantly less complex model and less training data, yet it is superior to existing methods in the task of monocular depth estimation on indoor benchmarks. In addition, we address the problem of image degradation by incorporating a non-blind and non-uniform image deblurring module to recover the sharp all-in-focus image from its RPSF-blurred counterpart.
翻訳日:2022-04-15 16:09:20 公開日:2022-04-14
# (参考訳) 多次元モデリングを用いた新しいアクションセットへの対話戦略適応 [全文訳有]

Dialogue Strategy Adaptation to New Action Sets Using Multi-dimensional Modelling ( http://arxiv.org/abs/2204.07082v1 )

ライセンス: CC BY 4.0
Simon Keizer, Norbert Braunschweiler, Svetlana Stoyanchev, Rama Doddipatla(参考訳) 新しいドメインやアプリケーションのために統計的音声対話システムを構築するための大きなボトルネックは、大量のトレーニングデータの必要性である。 この問題に対処するために,対話管理における多次元的アプローチを採用し,伝達学習の可能性を評価する。 具体的には、事前訓練されたタスク非依存ポリシーを利用して、スロット要求のための単一のサマリアクションを複数のスロット固有のリクエストアクションに置き換える、拡張されたタスク固有のアクションセットのトレーニングをスピードアップする。 政策最適化とアジェンダベースのユーザシミュレータによる評価実験により,訓練データに制限がある場合,提案手法を用いることで,より優れた性能が得られることが示された。 この改善をクラウドソースによる音声対話システムにおけるユーザ評価で確認し、部分的に訓練されたポリシーを比較した。 多次元システム(対象シナリオにおける限られたトレーニングデータへの適応)は、1次元ベースライン(同じトレーニングデータへの適応なしに)を7%向上させる。

A major bottleneck for building statistical spoken dialogue systems for new domains and applications is the need for large amounts of training data. To address this problem, we adopt the multi-dimensional approach to dialogue management and evaluate its potential for transfer learning. Specifically, we exploit pre-trained task-independent policies to speed up training for an extended task-specific action set, in which the single summary action for requesting a slot is replaced by multiple slot-specific request actions. Policy optimisation and evaluation experiments using an agenda-based user simulator show that with limited training data, much better performance levels can be achieved when using the proposed multi-dimensional adaptation method. We confirm this improvement in a crowd-sourced human user evaluation of our spoken dialogue system, comparing partially trained policies. The multi-dimensional system (with adaptation on limited training data in the target scenario) outperforms the one-dimensional baseline (without adaptation on the same amount of training data) by 7% perceived success rate.
翻訳日:2022-04-15 15:43:04 公開日:2022-04-14
# (参考訳) uavドローン画像を用いた深層ニューラルネットワークを用いた劣化アカシア樹種の検出 [全文訳有]

Detection of Degraded Acacia tree species using deep neural networks on uav drone imagery ( http://arxiv.org/abs/2204.07096v1 )

ライセンス: CC BY 4.0
Anne Achieng Osio, Ho\`ang-\^An L\^e, Samson Ayugi, Fred Onyango, Peter Odwe, S\'ebastien Lef\`evre(参考訳) ディープラーニングに基づく画像分類とオブジェクト検出は、ツリーモニタリングに成功している。 しかし、特に洪水による浸水地域における樹冠や落葉樹の研究はほとんど未調査のままである。 混色画像の背景が混在しているため, 水, 泥団地, 自然植生地帯などの自然環境における劣化樹幹の検出は困難である。 本稿では,ケニアのナクル湖周辺6カ所から落葉したアカシアxanthophloeaの木を撮影するために,無人航空機(uavs)またはrgbカメラを組み込んだドローンを用いた。 湖周辺で倒れた木を検出する必要性により、より高速な領域ベースの畳み込みニューラルネットワーク(Faster R-CNN)とRetina-Netという2つの確立されたディープニューラルネットワークが倒木検出に使用された。 本研究は,256 x 256画像パッチを用いた3クラス合計7,590アノテーションを用いた。 実験の結果、網膜ネットモデルは38.9%の精度で57.9%のリコールを達成した。

Deep-learning-based image classification and object detection has been applied successfully to tree monitoring. However, studies of tree crowns and fallen trees, especially on flood inundated areas, remain largely unexplored. Detection of degraded tree trunks on natural environments such as water, mudflats, and natural vegetated areas is challenging due to the mixed colour image backgrounds. In this paper, Unmanned Aerial Vehicles (UAVs), or drones, with embedded RGB cameras were used to capture the fallen Acacia Xanthophloea trees from six designated plots around Lake Nakuru, Kenya. Motivated by the need to detect fallen trees around the lake, two well-established deep neural networks, i.e. Faster Region-based Convolution Neural Network (Faster R-CNN) and Retina-Net were used for fallen tree detection. A total of 7,590 annotations of three classes on 256 x 256 image patches were used for this study. Experimental results show the relevance of deep learning in this context, with Retina-Net model achieving 38.9% precision and 57.9% recall.
翻訳日:2022-04-15 15:28:38 公開日:2022-04-14
# (参考訳) look back and forth: 明示的な時間差モデリングによるビデオの超解像 [全文訳有]

Look Back and Forth: Video Super-Resolution with Explicit Temporal Difference Modeling ( http://arxiv.org/abs/2204.07114v1 )

ライセンス: CC0 1.0
Takashi Isobe and Xu Jia and Xin Tao and Changlin Li and Ruihuang Li and Yongjie Shi and Jing Mu and Huchuan Lu and Yu-Wing Tai(参考訳) 超高解像度ビデオには時間モデリングが不可欠である。 ビデオのスーパーレゾリューション手法の多くは、光学的流れや変形可能な畳み込みを明示的な動き補償に採用している。 しかし、このような時間的モデリング技術はモデルの複雑さを増大させ、閉塞や複雑な動きで失敗する可能性があり、重大な歪みやアーチファクトをもたらす。 本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。 連続するフレームをvsrモデルに直接送る代わりに、フレーム間の時間的差を計算し、それらのピクセルを差分のレベルに応じて2つのサブセットに分割することを提案する。 補完情報を抽出するために、異なる受容領域の2つの枝で別々に処理される。 超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。 これにより、モデルが将来と過去の中間SR結果を利用して、現在のSR出力を洗練できる。 異なる時間ステップでの差分をキャッシュすることで、時間内の更なる距離からの情報が現在のフレームに伝播して精錬することができる。 いくつかのビデオ超高解像度ベンチマークデータセットの実験は、提案手法の有効性と最先端手法に対する良好な性能を示す。

Temporal modeling is crucial for video super-resolution. Most of the video super-resolution methods adopt the optical flow or deformable convolution for explicitly motion compensation. However, such temporal modeling techniques increase the model complexity and might fail in case of occlusion or complex motion, resulting in serious distortion and artifacts. In this paper, we propose to explore the role of explicit temporal difference modeling in both LR and HR space. Instead of directly feeding consecutive frames into a VSR model, we propose to compute the temporal difference between frames and divide those pixels into two subsets according to the level of difference. They are separately processed with two branches of different receptive fields in order to better extract complementary information. To further enhance the super-resolution result, not only spatial residual features are extracted, but the difference between consecutive frames in high-frequency domain is also computed. It allows the model to exploit intermediate SR results in both future and past to refine the current SR output. The difference at different time steps could be cached such that information from further distance in time could be propagated to the current frame for refinement. Experiments on several video super-resolution benchmark datasets demonstrate the effectiveness of the proposed method and its favorable performance against state-of-the-art methods.
翻訳日:2022-04-15 15:16:05 公開日:2022-04-14
# (参考訳) 質問応答のためのデュアルエンコーダアーキテクチャの検討 [全文訳有]

Exploring Dual Encoder Architectures for Question Answering ( http://arxiv.org/abs/2204.07120v1 )

ライセンス: CC BY 4.0
Zhe Dong, Jianmo Ni, Dan Bikel, Enrique Alfonseca, Yuan Wang, Chen Qu, Imed Zitouni(参考訳) デュアルエンコーダは質問応答(QA)と情報検索(IR)タスクによく使われてきた。 デュアルエンコーダには2つの主要なタイプがある: siamese dual encoder (sde) パラメータは2つのエンコーダで共有され、非対称デュアルエンコーダ (ade) は2つの異なるパラメータ化されたエンコーダを持つ。 本研究では,QA検索タスクのためのデュアルエンコーダアーキテクチャについて検討する。 MARCOとMultiReQAのベンチマークを用いて、SDEはADEよりもかなり優れた性能を示した。 さらに、ADEの3つの異なる改良版を提案する。 提案手法は,QA検索タスクの評価と埋め込みの直接解析に基づいて,プロジェクション層におけるパラメータの共有により,ADEがSDEと競合できることを示す。

Dual encoders have been used for question-answering (QA) and information retrieval (IR) tasks with good results. There are two major types of dual encoders, Siamese Dual Encoders (SDE), with parameters shared across two encoders, and Asymmetric Dual Encoder (ADE), with two distinctly parameterized encoders. In this work, we explore the dual encoder architectures for QA retrieval tasks. By evaluating on MS MARCO and the MultiReQA benchmark, we show that SDE performs significantly better than ADE. We further propose three different improved versions of ADEs. Based on the evaluation of QA retrieval tasks and direct analysis of the embeddings, we demonstrate that sharing parameters in projection layers would enable ADEs to perform competitively with SDEs.
翻訳日:2022-04-15 15:02:28 公開日:2022-04-14
# (参考訳) スコアベース生成モデルを用いたMIMOチャネル推定

MIMO Channel Estimation using Score-Based Generative Models ( http://arxiv.org/abs/2204.07122v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Jonathan I Tamir(参考訳) チャネル推定は、エンドツーエンドのシステム性能に影響を及ぼす多重出力多重出力デジタル通信において重要なタスクである。 本研究では,深層スコアに基づく生成モデルを用いたチャネル推定手法を提案する。 これらのモデルは、対数-主分布の勾配を推定するために訓練され、観測された信号の測定から推定を反復的に洗練するために使用することができる。 本稿では,無線チャネルのためのスコアベース生成モデルのトレーニングと,テスト時に後方サンプリングを用いたチャネル推定を行うためのフレームワークを提案する。 単一入力単一出力シナリオにおける後続サンプリングによるチャネル推定の理論的ロバスト性保証を導出し,mimoチャネルにおける推定性能に関する観測を実験的に検証した。 クラスタ化遅延線チャネルのシミュレーション結果から,高信号-雑音比系における誤差フロアを伴わずに,競合する深層学習手法をエンドツーエンド通信性能において最大5dBで性能良く,かつ,モデルアーキテクチャが推定遅延に対して効率よく性能を取引できることを示す。

Channel estimation is a critical task in multiple-input multiple-output digital communications that has effects on end-to-end system performance. In this work, we introduce a novel approach for channel estimation using deep score-based generative models. These models are trained to estimate the gradient of the log-prior distribution, and can be used to iteratively refine estimates, given observed measurements of a signal. We introduce a framework for training score-based generative models for wireless channels, as well as performing channel estimation using posterior sampling at test time. We derive theoretical robustness guarantees of channel estimation with posterior sampling in single-input single-output scenarios, and show that the observations regarding estimation performance are verified experimentally in MIMO channels. Our results in simulated clustered delay line channels show competitive in-distribution performance without error floors in the high signal-to-noise ratio regime, and robust out-of-distribution performance, outperforming competing deep learning methods by up to 5 dB in end-to-end communication performance, while the complexity analysis reveals how model architecture can efficiently trade performance for estimation latency.
翻訳日:2022-04-15 14:54:38 公開日:2022-04-14
# 制御指向メタラーニング

Control-oriented meta-learning ( http://arxiv.org/abs/2204.06716v1 )

ライセンス: Link先を確認
Spencer M. Richards, Navid Azizan, Jean-Jacques Slotine, Marco Pavone(参考訳) リアルタイム適応は、複雑な動的環境で動作するロボットの制御に不可欠である。 適応制御則は、不確定なダイナミクス項が既知の非線形特徴で線形にパラメータ化可能であれば、軌道追従性能の良好な非線形システムでさえも付与することができる。 しかし、ロータークラフトの空力障害やマニピュレータアームと様々な物体との相互作用力など、先駆的な特徴を特定することはしばしば困難である。 本稿では、ニューラルネットワークを用いたデータ駆動モデルを用いて、過去のデータからオフラインで学習し、これらの非線形特徴を内部パラメトリックモデルで適応制御する。 私たちの重要な洞察は、入出力データに適合する機能の回帰指向メタ学習よりも、クローズドループシミュレーションにおける機能の制御指向メタラーニングによるデプロイメントのためのコントローラを準備できるということです。 具体的には,アダプティブコントローラをメタ学習し,クローズドループ追跡シミュレーションをベースラーナーとし,平均トラッキング誤差をメタ対象とする。 完全作動と非作動の両方の非線形平面ロータークラフトにより、軌道追従制御のためにクローズドループに配備された場合、適応コントローラは回帰指向メタラーニングで訓練された他のコントローラよりも優れていることを実証する。

Real-time adaptation is imperative to the control of robots operating in complex, dynamic environments. Adaptive control laws can endow even nonlinear systems with good trajectory tracking performance, provided that any uncertain dynamics terms are linearly parameterizable with known nonlinear features. However, it is often difficult to specify such features a priori, such as for aerodynamic disturbances on rotorcraft or interaction forces between a manipulator arm and various objects. In this paper, we turn to data-driven modeling with neural networks to learn, offline from past data, an adaptive controller with an internal parametric model of these nonlinear features. Our key insight is that we can better prepare the controller for deployment with control-oriented meta-learning of features in closed-loop simulation, rather than regression-oriented meta-learning of features to fit input-output data. Specifically, we meta-learn the adaptive controller with closed-loop tracking simulation as the base-learner and the average tracking error as the meta-objective. With both fully-actuated and underactuated nonlinear planar rotorcraft subject to wind, we demonstrate that our adaptive controller outperforms other controllers trained with regression-oriented meta-learning when deployed in closed-loop for trajectory tracking control.
翻訳日:2022-04-15 14:52:54 公開日:2022-04-14
# 変分オートエンコーダを用いた音声の音源フィルタ表現の学習と制御

Learning and controlling the source-filter representation of speech with a variational autoencoder ( http://arxiv.org/abs/2204.07075v1 )

ライセンス: Link先を確認
Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) 深層生成モデルにおける潜伏表現の理解と制御は、様々な種類のデータを分析し、変換し、生成する上で難しいが重要な問題である。 音声処理において、音源フィルタモデルは、基本周波数$f_0$とホルマントが第一に重要であるいくつかの独立かつ物理的に意味のある連続潜時因子から発声信号が生成されると考える。 本研究では,音声生成のソースフィルタモデルが,自然音声信号のデータセットに基づいて教師なしで訓練された変分オートエンコーダ(VAE)の潜時空間に自然に現れることを示す。 人工音声合成装置で生成した数秒のラベル付き音声信号を用いて、VAE潜在空間の直交部分空間に$f_0$とフォーマント周波数が符号化されることを実験的に示し、学習された潜在空間内のこれらの音声要素を正確に独立に制御する弱い教師付き手法を開発した。 テキストや人間のラベルデータなどの追加情報を必要としないことで、$f_0$とフォルマント周波数で条件付けされ、音声信号の変換に適用される音声スペクトログラムの深い生成モデルが得られる。

Understanding and controlling latent representations in deep generative models is a challenging yet important problem for analyzing, transforming and generating various types of data. In speech processing, inspiring from the anatomical mechanisms of phonation, the source-filter model considers that speech signals are produced from a few independent and physically meaningful continuous latent factors, among which the fundamental frequency $f_0$ and the formants are of primary importance. In this work, we show that the source-filter model of speech production naturally arises in the latent space of a variational autoencoder (VAE) trained in an unsupervised manner on a dataset of natural speech signals. Using only a few seconds of labeled speech signals generated with an artificial speech synthesizer, we experimentally illustrate that $f_0$ and the formant frequencies are encoded in orthogonal subspaces of the VAE latent space and we develop a weakly-supervised method to accurately and independently control these speech factors of variation within the learned latent subspaces. Without requiring additional information such as text or human-labeled data, this results in a deep generative model of speech spectrograms that is conditioned on $f_0$ and the formant frequencies, and which is applied to the transformation of speech signals.
翻訳日:2022-04-15 14:52:32 公開日:2022-04-14
# 複数配列アライメントで学習したタンパク質言語モデルの生成能力

Generative power of a protein language model trained on multiple sequence alignments ( http://arxiv.org/abs/2204.07110v1 )

ライセンス: Link先を確認
Damiano Sgarbossa, Umberto Lupo and Anne-Florence Bitbol(参考訳) 進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉え、タンパク質の構造と機能に関連する制約を学ぶ。 これにより、タンパク質ファミリーに属する新規な配列を生成する可能性を開く。 MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。 マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案する。 結果列は一般にポッツモデルや自然数列よりも、ホモロジー、共進化、構造に基づく測度において優れていることが示されている。 さらに、MSAトランスフォーマーは、Pottsモデルよりも高階統計と自然データのシーケンス空間におけるシーケンスの分布をよりよく再現するが、Pottsモデルは1階統計と2階統計をよりよく再現する。 したがって、MSAトランスフォーマーはタンパク質配列の生成とタンパク質設計の強力な候補である。

Computational models starting from large ensembles of evolutionarily related protein sequences capture a representation of protein families and learn constraints associated to protein structure and function. They thus open the possibility for generating novel sequences belonging to protein families. Protein language models trained on multiple sequence alignments, such as MSA Transformer, are highly attractive candidates to this end. We propose and test an iterative method that directly uses the masked language modeling objective to generate sequences using MSA Transformer. We demonstrate that the resulting sequences generally score better than those generated by Potts models, and even than natural sequences, for homology, coevolution and structure-based measures. Moreover, MSA Transformer better reproduces the higher-order statistics and the distribution of sequences in sequence space of natural data than Potts models, although Potts models better reproduce first- and second-order statistics. MSA Transformer is thus a strong candidate for protein sequence generation and protein design.
翻訳日:2022-04-15 14:52:07 公開日:2022-04-14
# 銀行間ネットワーク安定のための強化学習政策勧告

Reinforcement Learning Policy Recommendation for Interbank Network Stability ( http://arxiv.org/abs/2204.07134v1 )

ライセンス: Link先を確認
Alessio Brini, Gabriele Tedeschi, Daniele Tantari(参考訳) 本稿では,政策レコメンデーションが銀行間市場のパフォーマンスに与える影響について分析する。 金融機関は、公的勧告及び個人情報に基づく貸付契約を定めている。 前者は、システムの長期的な適合性を最大化しようとする強化学習最適政策をモデルとし、経済環境に関する情報を収集し、低金利または高流動性供給の最適選択に基づいて、経済アクターに信用関係を作成するよう指示する。 後者はエージェントのバランスシートに基づいて、銀行が市場において最適に提供している流動性供給と金利を決定することができる。 公的信号と民間信号の組み合わせに基づいて、金融機関は動的ネットワークを生成できる優先的なアタッチメント進化手順により、時間とともに信用関係を作成または縮小する。 以上の結果から, 銀行間ネットワークの出現は, 貸し手や借主のサイズに一定の均質性が組み合わさって, システムのレジリエンスを確保する上で不可欠な特徴であることが示唆された。 さらに、強化学習最適政策勧告は、代替政策指標に対する体系的リスクを軽減する上で重要な役割を担っている。

In this paper we analyze the effect of a policy recommendation on the performances of an artificial interbank market. Financial institutions stipulate lending agreements following a public recommendation and their individual information. The former, modeled by a reinforcement learning optimal policy trying to maximize the long term fitness of the system, gathers information on the economic environment and directs economic actors to create credit relationships based on the optimal choice between a low interest rate or high liquidity supply. The latter, based on the agents' balance sheet, allows to determine the liquidity supply and interest rate that the banks optimally offer on the market. Based on the combination between the public and the private signal, financial institutions create or cut their credit connections over time via a preferential attachment evolving procedure able to generate a dynamic network. Our results show that the emergence of a core-periphery interbank network, combined with a certain level of homogeneity on the size of lenders and borrowers, are essential features to ensure the resilience of the system. Moreover, the reinforcement learning optimal policy recommendation plays a crucial role in mitigating systemic risk with respect to alternative policy instruments.
翻訳日:2022-04-15 14:51:51 公開日:2022-04-14
# 非コヒーレント測定による量子状態認証の厳密な境界

Tight Bounds for Quantum State Certification with Incoherent Measurements ( http://arxiv.org/abs/2204.07155v1 )

ライセンス: Link先を確認
Sitan Chen, Brice Huang, Jerry Li, Allen Liu(参考訳) 我々は、混合状態 $\rho \in \mathbb{C}^{d \times d}$, $n$ copy of a mixed state $\rho \in \mathbb{C}^{d \times d}$, and $\varepsilon > 0$ の問題を考察し、$\rho = \sigma$ と $\| \rho\sigma \|_1 > \varepsilon$ を判定する。 もし$\sigma$ が最大混合状態であるとき、$\frac{1}{d} i_d$ は混合性テストとして知られる。 非コヒーレントな測定を使用するアルゴリズム、すなわち、一度に$\rho$のコピーを1つだけ測定するアルゴリズムに焦点を当てる。 絡み合ったマルチコピー計測を使用するものとは異なり、これらは永続的な量子メモリなしで実装することができ、そのため現在または近い将来のデバイスで実行できる多数のプロトコルクラスを表現することができる。 混合性テストには、非コヒーレントな測定を使い、$O(d^{3/2} / \varepsilon^2)$コピーしか必要としないフォークロアアルゴリズムがある。 アルゴリズムは非適応であり、すなわち、その測定は時間前に固定され、非適応アルゴリズムに最適であることが知られている。 しかし、アルゴリズムが任意の非コヒーレントな測定を行うことができるとき、最もよく知られた下界は$\Omega (d^{4/3} / \varepsilon^2)$ [Bubeck-Chen-Li '20] でしかなく、この多項式ギャップを閉じることは未解決の問題である。 この作品では 1) 不整合測定による混合性試験のコピー複雑性を解決し,$\Omega (d^{3/2} / \varepsilon^2)$コピーが必要であることを示す。 2) 非適応測定における [Chen-Li-O'Donnell '21] が導出した一般$\sigma$に対する状態認証のインスタンス最適境界も任意の不整合測定に有効であることを示す。 質的に見れば、適応性はこれらの問題には全く役に立たない。 私たちの結果は、問題から特定の行列マーチンゲールを理解することを可能にする新しいテクニックに基づいています。

We consider the problem of quantum state certification, where we are given the description of a mixed state $\sigma \in \mathbb{C}^{d \times d}$, $n$ copies of a mixed state $\rho \in \mathbb{C}^{d \times d}$, and $\varepsilon > 0$, and we are asked to determine whether $\rho = \sigma$ or whether $\| \rho - \sigma \|_1 > \varepsilon$. When $\sigma$ is the maximally mixed state $\frac{1}{d} I_d$, this is known as mixedness testing. We focus on algorithms which use incoherent measurements, i.e. which only measure one copy of $\rho$ at a time. Unlike those that use entangled, multi-copy measurements, these can be implemented without persistent quantum memory and thus represent a large class of protocols that can be run on current or near-term devices. For mixedness testing, there is a folklore algorithm which uses incoherent measurements and only needs $O(d^{3/2} / \varepsilon^2)$ copies. The algorithm is non-adaptive, that is, its measurements are fixed ahead of time, and is known to be optimal for non-adaptive algorithms. However, when the algorithm can make arbitrary incoherent measurements, the best known lower bound is only $\Omega (d^{4/3} / \varepsilon^2)$ [Bubeck-Chen-Li '20], and it has been an outstanding open problem to close this polynomial gap. In this work, 1) we settle the copy complexity of mixedness testing with incoherent measurements and show that $\Omega (d^{3/2} / \varepsilon^2)$ copies are necessary, and 2) we show the instance-optimal bounds for state certification to general $\sigma$ first derived by [Chen-Li-O'Donnell '21] for non-adaptive measurements also hold for arbitrary incoherent measurements. Qualitatively, our results say that adaptivity does not help at all for these problems. Our results are based on new techniques that allow us to reduce the problem to understanding certain matrix martingales, which we believe may be of independent interest.
翻訳日:2022-04-15 14:49:18 公開日:2022-04-14
# (参考訳) 人からのフィードバックによる学習に関する2021年玄武岩競技の振り返り [全文訳有]

Retrospective on the 2021 BASALT Competition on Learning from Human Feedback ( http://arxiv.org/abs/2204.07123v1 )

ライセンス: CC BY 4.0
Rohin Shah, Steven H. Wang, Cody Wild, Stephanie Milani, Anssi Kanervisto, Vinicius G. Goecks, Nicholas Waytowich, David Watkins-Valls, Bharat Prakash, Edmund Mills, Divyansh Garg, Alexander Fries, Alexandra Souly, Chan Jun Shern, Daniel del Castillo, Tom Lieberum(参考訳) 我々は,ニューラル情報処理システムに関する第35回大会(NeurIPS 2021)において,ほぼ生涯的課題(MineRL BASALT)を解決したエージェントのためのMineRLベンチマークを開催した。 競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。 LfHFテクニックの使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクを説明し、参加者がタスクを達成できるエージェントを構築したいと思うアプローチを使用できるようにした。 チームは様々な人間のフィードバックタイプにまたがって多様なlfhfアルゴリズムを開発した。 3つの勝利チームは、同様のパフォーマンスを達成しながら、かなり異なるアプローチを実践した。 興味深いことに、彼らのアプローチはさまざまなタスクでうまく機能し、競争に参加するタスクの選択を検証しました。 結果がコンペのデザインを立証したが、私たちの姉妹コンペMineRL Diamondほど多くの参加者や応募は得られなかった。 我々は、この問題の原因について推測し、競争の今後のイテレーションの改善を提案する。

We held the first-ever MineRL Benchmark for Agents that Solve Almost-Lifelike Tasks (MineRL BASALT) Competition at the Thirty-fifth Conference on Neural Information Processing Systems (NeurIPS 2021). The goal of the competition was to promote research towards agents that use learning from human feedback (LfHF) techniques to solve open-world tasks. Rather than mandating the use of LfHF techniques, we described four tasks in natural language to be accomplished in the video game Minecraft, and allowed participants to use any approach they wanted to build agents that could accomplish the tasks. Teams developed a diverse range of LfHF algorithms across a variety of possible human feedback types. The three winning teams implemented significantly different approaches while achieving similar performance. Interestingly, their approaches performed well on different tasks, validating our choice of tasks to include in the competition. While the outcomes validated the design of our competition, we did not get as many participants and submissions as our sister competition, MineRL Diamond. We speculate about the causes of this problem and suggest improvements for future iterations of the competition.
翻訳日:2022-04-15 14:47:50 公開日:2022-04-14
# 正規化m推定器のためのシングルインデックスモデルの可観測調整

Observable adjustments in single-index models for regularized M-estimators ( http://arxiv.org/abs/2204.06990v1 )

ライセンス: Link先を確認
Pierre C Bellec(参考訳) 我々は、未知のリンク関数を持つ単一インデックスモデルからの観測$(X,y)$、ガウス共変量および凸損失関数と正則化子から構築された正規化されたM-推定子$\hat\beta$を考える。 In the regime where sample size $n$ and dimension $p$ are both increasing such that $p/n$ has a finite limit, the behavior of the empirical distribution of $\hat\beta$ and the predicted values $X\hat\beta$ has been previously characterized in a number of models: The empirical distributions are known to converge to proximal operators of the loss and penalty in a related Gaussian sequence model, which captures the interplay between ratio $p/n$, loss, regularization and the data generating process. この$(\hat\beta,x\hat\be ta) と対応する近位作用素の間の接続は、インデックスやリンク関数の事前分布のような観測不能な量を含む固定点方程式を解く必要がある。 本稿では、観測可能な調整のみを含む近似作用素の観点で、$\hat\beta$ と $X\hat\beta$: $(\hat\beta,X\hat\be ta)$ の近似を記述するための別の理論を開発する。 これらの観測可能な調整はデータ駆動であり、インデックスやリンク関数の事前知識を必要としない。 これらの新たな調整は、インデックスの個々のコンポーネントに対する信頼区間と、$\hat\beta$とインデックスとの相関を推定する。 損失、正規化、モデルの間の相互作用は、以前の研究で研究された固定点方程式を解くことなく、データ駆動方式でキャプチャされる。 結果は、強い凸正則化と非正規化M推定の両方に適用できる。 ロジスティック回帰や1ビット圧縮センシングを含む単一インデックスモデルの正方形およびロジスティック損失に対する20\%崩壊ビットのシミュレーションを提供する。

We consider observations $(X,y)$ from single index models with unknown link function, Gaussian covariates and a regularized M-estimator $\hat\beta$ constructed from convex loss function and regularizer. In the regime where sample size $n$ and dimension $p$ are both increasing such that $p/n$ has a finite limit, the behavior of the empirical distribution of $\hat\beta$ and the predicted values $X\hat\beta$ has been previously characterized in a number of models: The empirical distributions are known to converge to proximal operators of the loss and penalty in a related Gaussian sequence model, which captures the interplay between ratio $p/n$, loss, regularization and the data generating process. This connection between$(\hat\beta,X \hat\beta)$ and the corresponding proximal operators require solving fixed-point equations that typically involve unobservable quantities such as the prior distribution on the index or the link function. This paper develops a different theory to describe the empirical distribution of $\hat\beta$ and $X\hat\beta$: Approximations of $(\hat\beta,X\hat\be ta)$ in terms of proximal operators are provided that only involve observable adjustments. These proposed observable adjustments are data-driven, e.g., do not require prior knowledge of the index or the link function. These new adjustments yield confidence intervals for individual components of the index, as well as estimators of the correlation of $\hat\beta$ with the index. The interplay between loss, regularization and the model is thus captured in a data-driven manner, without solving the fixed-point equations studied in previous works. The results apply to both strongly convex regularizers and unregularized M-estimation. Simulations are provided for the square and logistic loss in single index models including logistic regression and 1-bit compressed sensing with 20\% corrupted bits.
翻訳日:2022-04-15 14:35:21 公開日:2022-04-14
# 偏微分方程式の効率的な学習のための多元的深層ニューラルネットワークとナノスケール熱輸送の高速逆設計への応用

Multifidelity deep neural operators for efficient learning of partial differential equations with application to fast inverse design of nanoscale heat transport ( http://arxiv.org/abs/2204.06684v1 )

ライセンス: Link先を確認
Lu Lu, Raphael Pestourie, Steven G. Johnson, Giuseppe Romano(参考訳) ディープニューラルオペレータは、ディープニューラルネットを介して無限次元関数空間間の演算子マッピングを学習することができ、科学的機械学習の新たなパラダイムとなっている。 しかし、ニューラルネットワークの訓練は通常、大量の忠実度データを必要とするため、実際のエンジニアリング問題では取得が困難である。 本稿では,マルチフィデリティ学習,すなわちマルチフィデリティデータセットからの学習を用いて,この課題に対処する。 我々は,DeepONet(DeepONet)に基づく多要素ニューラル演算子を開発した。 マルチファイダリティのDeepONetには、残差学習と入力拡張が組み合わされた2つの標準DeepONetsが含まれている。 マルチフィデリティDeepONetは要求される高フィデリティデータの量を大幅に削減し、同じ量の高フィデリティデータを使用する場合の誤差を1桁小さくする。 ナノスケール熱輸送を計算するためのフレームワークであるフォノンボルツマン輸送方程式 (BTE) の学習に多要素DeepONetを適用した。 遺伝的アルゴリズムやトポロジ最適化を訓練したdeeponetを組み合わせることで,bte問題の逆設計のための高速解法を示す。

Deep neural operators can learn operators mapping between infinite-dimensional function spaces via deep neural networks and have become an emerging paradigm of scientific machine learning. However, training neural operators usually requires a large amount of high-fidelity data, which is often difficult to obtain in real engineering problems. Here, we address this challenge by using multifidelity learning, i.e., learning from multifidelity datasets. We develop a multifidelity neural operator based on a deep operator network (DeepONet). A multifidelity DeepONet includes two standard DeepONets coupled by residual learning and input augmentation. Multifidelity DeepONet significantly reduces the required amount of high-fidelity data and achieves one order of magnitude smaller error when using the same amount of high-fidelity data. We apply a multifidelity DeepONet to learn the phonon Boltzmann transport equation (BTE), a framework to compute nanoscale heat transport. By combining a trained multifidelity DeepONet with genetic algorithm or topology optimization, we demonstrate a fast solver for the inverse design of BTE problems.
翻訳日:2022-04-15 14:34:03 公開日:2022-04-14
# モデル予測精度向上のための物理特性を簡略化したディープニューラルネットワークの補間

Supplementation of deep neural networks with simplified physics-based features to increase model prediction accuracy ( http://arxiv.org/abs/2204.06764v1 )

ライセンス: Link先を確認
Nicholus R. Clinkinbeard, Prof. Nicole N. Hashemi(参考訳) STEMアプリケーションの予測モデルを改善するために、入力パラメータから計算された補足的な物理ベースの特徴をディープニューラルネットワーク(DNN)の単層および複数層に導入する。 多くの研究は微分方程式や数値シミュレーションを通じてDNNに物理を知らせることに焦点を当てているが、多くの研究は単純化された関係の統合によって得られる。 この仮説を評価するために、すべての端に単純に支持された細い矩形板を5つの材料で模擬する。 平板寸法と材料特性を入力特性として, 基本自然周波数を単独出力として, 純粋データ駆動型dnnモデルの予測性能を, 基礎パラメータ, 厚み, 剛性係数, せん断弾性率の簡易な物理関係から計算した追加入力を用いたモデルと比較した。 モデルの精度の利点をよりよく理解するために、これらの追加機能は、様々なシングル層と複数のdnn層に注入され、4つの異なるデータセットサイズでトレーニングされる。 これらの物理エンハンスモデルが、同じ材料およびトレーニングセットと類似した次元の独立データに対して評価されるとき、簡易な物理ベースのパラメータによる補足は、データセットサイズが60以上のトレーニングされたモデルのベースラインよりも予測誤差がほとんど減少しないが、スパースサイズが30のトレーニングで19.3%から16.1%に小さな改善が行われる。 逆に、独立したテストデータがトレーニングセットに適合しない材料と寸法のとき、注目すべき精度が向上する。 具体的には、複数のdnn層に物理エンハンスされたデータを注入すると、トレーニングデータセットサイズ261,117,60,30に対して、エラーの33.2%から19.6%、34.9%から19.9%、35.8%から22.4%、および43.0%から28.4%の低下が達成され、一般化度が達成される。

To improve predictive models for STEM applications, supplemental physics-based features computed from input parameters are introduced into single and multiple layers of a deep neural network (DNN). While many studies focus on informing DNNs with physics through differential equations or numerical simulation, much may be gained through integration of simplified relationships. To evaluate this hypothesis, a number of thin rectangular plates simply-supported on all edges are simulated for five materials. With plate dimensions and material properties as input features and fundamental natural frequency as the sole output, predictive performance of a purely data-driven DNN-based model is compared with models using additional inputs computed from simplified physical relationships among baseline parameters, namely plate weight, modulus of rigidity, and shear modulus. To better understand the benefit to model accuracy, these additional features are injected into various single and multiple DNN layers, and trained with four different dataset sizes. When these physics-enhanced models are evaluated against independent data of the same materials and similar dimensions to the training sets, supplementation with simplified physics-based parameters provides little reduction in prediction error over the baseline for models trained with dataset sizes of 60 and greater, although small improvement from 19.3% to 16.1% occurs when trained with a sparse size of 30. Conversely, notable accuracy gains occur when the independent test data is of material and dimensions not conforming to the training set. Specifically, when physics-enhanced data is injected into multiple DNN layers, reductions in error from 33.2% to 19.6%, 34.9% to 19.9%, 35.8% to 22.4%, and 43.0% to 28.4% are achieved for training dataset sizes of 261, 117, 60, and 30, respectively, demonstrating attainment of a degree of generalizability.
翻訳日:2022-04-15 14:33:43 公開日:2022-04-14
# MARF:2次元レーザースキャナを用いた脚検出のためのマルチスケールアダプティブスウィッチランダムフォレスト

MARF: Multiscale Adaptive-switch Random Forest for Leg Detection with 2D Laser Scanners ( http://arxiv.org/abs/2204.06833v1 )

ライセンス: Link先を確認
Tianxi Wang, Feng Xue, Yu Zhou, Anlong Ming(参考訳) 人検出や人追跡といった2dレーザーベースのタスクでは、足の検出が通常最初のステップです。 したがって、人物検出と人物追跡のパフォーマンスを決定する上で大きな重みを負う。 しかし、多くの脚検出器は、避けられないノイズやレーザースキャンの多スケール特性を無視し、ポイントクラウドの信頼性の低い特徴に敏感になり、さらに脚検出器の性能を低下させる。 本稿では,これら2つの課題を克服するためのマルチスケール適応スイッチランダムフォレスト(marf)を提案する。 まず,アダプティブスイッチ決定木は,重み付き分類と雑音不変特徴の処理にノイズセンシティブ機能を利用するように設計され,検出器が雑音に対してより頑健に動作するようにしている。 次に,2次元点雲のスパース性がレーザービームの長さに比例するマルチスケール特性を考慮して,異なる距離で脚を検出するマルチスケールのランダムフォレスト構造を設計した。 さらに,提案手法により,点雲からヒトの足のスパーサーを発見できる。 その結果,本手法は,低計算量ラップトップでは60fps以上の速度でパイプライン全体を保持できるため,他の最先端の脚検出装置と比較して性能が向上した。 さらに、提案したMARFを人検出・追跡システムに適用し、全ての指標においてかなりの利得を得る。

For the 2D laser-based tasks, e.g., people detection and people tracking, leg detection is usually the first step. Thus, it carries great weight in determining the performance of people detection and people tracking. However, many leg detectors ignore the inevitable noise and the multiscale characteristics of the laser scan, which makes them sensitive to the unreliable features of point cloud and further degrades the performance of the leg detector. In this paper, we propose a multiscale adaptive-switch Random Forest (MARF) to overcome these two challenges. Firstly, the adaptive-switch decision tree is designed to use noisesensitive features to conduct weighted classification and noiseinvariant features to conduct binary classification, which makes our detector perform more robust to noise. Secondly, considering the multiscale property that the sparsity of the 2D point cloud is proportional to the length of laser beams, we design a multiscale random forest structure to detect legs at different distances. Moreover, the proposed approach allows us to discover a sparser human leg from point clouds than others. Consequently, our method shows an improved performance compared to other state-of-the-art leg detectors on the challenging Moving Legs dataset and retains the whole pipeline at a speed of 60+ FPS on lowcomputational laptops. Moreover, we further apply the proposed MARF to the people detection and tracking system, achieving a considerable gain in all metrics.
翻訳日:2022-04-15 14:30:47 公開日:2022-04-14
# スライスネットワークにおける計測に基づく入場制御:最良の腕識別法

Measurement-based Admission Control in Sliced Networks: A Best Arm Identification Approach ( http://arxiv.org/abs/2204.06910v1 )

ライセンス: Link先を確認
Simon Lindst{\aa}hl, Alexandre Proutiere, Andreas Jonsson(参考訳) スライスされたネットワークでは、ネットワークリソースの測定に基づいてデータフローの適応的な受け入れ制御が必要となる。 本稿では,新しいデータフローを許容できるか,また,この場合のスライスを判断し,計測に基づく入場制御スキームの設計について検討する。 目的は、測定コスト(決定にコミットする前に行われた測定回数)を最小化しつつ、一定のレベルの信頼度で正しい決定(例えば、最小のスライス)を返す共同測定および決定戦略を考案することである。 そこで本研究では, 適切な判断を規定する複数の自然入場基準について, その戦略の設計について検討する。 これらの基準のそれぞれについて、まず最初に、正しい決定を一定の信頼で返却するアルゴリズムのコストに基づいて、明示的な情報理論的な下限を導出する。 そして、この理論的限界を達成するための共同計測と決定戦略を考案する。 本研究では,これらの戦略の計測コストを実証的に比較し,下界と簡易な測定手法を比較した。 私たちのアルゴリズムは、ナイーブスキーム(約2〜8ドル)を大きく上回っていることがわかりました。

In sliced networks, the shared tenancy of slices requires adaptive admission control of data flows, based on measurements of network resources. In this paper, we investigate the design of measurement-based admission control schemes, deciding whether a new data flow can be admitted and in this case, on which slice. The objective is to devise a joint measurement and decision strategy that returns a correct decision (e.g., the least loaded slice) with a certain level of confidence while minimizing the measurement cost (the number of measurements made before committing to the decision). We study the design of such strategies for several natural admission criteria specifying what a correct decision is. For each of these criteria, using tools from best arm identification in bandits, we first derive an explicit information-theoreti cal lower bound on the cost of any algorithm returning the correct decision with fixed confidence. We then devise a joint measurement and decision strategy achieving this theoretical limit. We compare empirically the measurement costs of these strategies, and compare them both to the lower bounds as well as a naive measurement scheme. We find that our algorithm significantly outperforms the naive scheme (by a factor $2-8$).
翻訳日:2022-04-15 14:30:21 公開日:2022-04-14
# 機械学習モデルに検出不能なバックドアを植え付ける

Planting Undetectable Backdoors in Machine Learning Models ( http://arxiv.org/abs/2204.06974v1 )

ライセンス: Link先を確認
Shafi Goldwasser, Michael P. Kim, Vinod Vaikuntanathan, Or Zamir(参考訳) 機械学習モデルのトレーニングに必要な計算コストと技術的専門知識を考えると、ユーザは学習のタスクをサービスプロバイダに委譲することができる。 悪意ある学習者が検出不能なバックドアを分類器に組み込む方法を示す。 表面的には、そのようなバックドア型分類器は正常に振る舞うが、実際には学習者はわずかな摂動だけで任意の入力の分類を変更するメカニズムを維持できる。 重要なことに、適切な"バックドアキー"がなければ、そのメカニズムは隠され、計算に拘束されたオブザーバによって検出できない。 検出不能なバックドアを植え付けるための2つのフレームワークを実証する。 まず,デジタル署名方式を用いて,任意のモデルにバックドアを配置する方法を示す。 この構成により、元のモデルとバックドアバージョンへのブラックボックスアクセスが与えられると、それらが異なる1つの入力を見つけることは計算上不可能である。 この性質は、バックドアモデルが元のモデルに匹敵する一般化誤差を持つことを意味する。 次に,Random Fourier Features(RFF)学習パラダイムあるいはRandom ReLUネットワークを用いて学習したモデルに,検出不能なバックドアを挿入する方法を示す。 ネットワークとトレーニングデータの完全な記述が与えられれば、モデルが"クリーン"なのか、あるいはバックドアを含んでいるのかを、効率的な区別者は推測できない。 検出不能なバックドアの構築も,関連事例に対するロバスト性に関する問題点を浮き彫りにしている。 特に、我々の構成は、"adversarially robust"分類器とは区別できないが、すべての入力が逆の例を持つ分類器を生成することができる。 要約すると、検出不能なバックドアの存在は、敵の堅牢性を証明するための重要な理論的障害である。

Given the computational cost and technical expertise required to train machine learning models, users may delegate the task of learning to a service provider. We show how a malicious learner can plant an undetectable backdoor into a classifier. On the surface, such a backdoored classifier behaves normally, but in reality, the learner maintains a mechanism for changing the classification of any input, with only a slight perturbation. Importantly, without the appropriate "backdoor key", the mechanism is hidden and cannot be detected by any computationally-boun ded observer. We demonstrate two frameworks for planting undetectable backdoors, with incomparable guarantees. First, we show how to plant a backdoor in any model, using digital signature schemes. The construction guarantees that given black-box access to the original model and the backdoored version, it is computationally infeasible to find even a single input where they differ. This property implies that the backdoored model has generalization error comparable with the original model. Second, we demonstrate how to insert undetectable backdoors in models trained using the Random Fourier Features (RFF) learning paradigm or in Random ReLU networks. In this construction, undetectability holds against powerful white-box distinguishers: given a complete description of the network and the training data, no efficient distinguisher can guess whether the model is "clean" or contains a backdoor. Our construction of undetectable backdoors also sheds light on the related issue of robustness to adversarial examples. In particular, our construction can produce a classifier that is indistinguishable from an "adversarially robust" classifier, but where every input has an adversarial example! In summary, the existence of undetectable backdoors represent a significant theoretical roadblock to certifying adversarial robustness.
翻訳日:2022-04-15 14:30:02 公開日:2022-04-14
# オンラインニューロン制御のための高性能進化アルゴリズム

High-performance Evolutionary Algorithms for Online Neuron Control ( http://arxiv.org/abs/2204.06765v1 )

ライセンス: Link先を確認
Binxu Wang, Carlos R. Ponce(参考訳) 近年、最適化は神経科学者が神経コードを研究するための新しいツールとなっている。 視覚系では、ニューロンはグレードとノイズの応答を伴う画像に応答する。 最も高い応答を示す画像パターンは、ニューロンのコーディング内容の診断である。 これらのパターンを見つけるために、4096d画像空間を探索するためにブラックボックスオプティマイザを使用し、ニューロンの反応を最大化する画像の進化につながった。 遺伝的アルゴリズム(GA)は一般的に用いられているが、最適な最適化方法やそれを改善するために必要な基本原則を明らかにするための体系的な調査は行われていない。 そこで我々は,活性化最大化のための最適化器のシリコベンチマークを大規模に実施し,共分散行列適応(Covariance Matrix Adaptation, CMA)が有効であることを確認した。 CMA と GA を比較し,CMA は GA の最大活性化率を 66% ,in vivo では 44% で上回った。 進化の軌跡の構造を分析し,成功の鍵は共分散行列適応ではなく,情報的次元への局所探索と効果的なステップサイズ減衰であることがわかった。 これらの原理と画像多様体の幾何学によって導かれ、CMAとよく競合するSphereCMA最適化器を開発し、同定された原理の有効性を証明した。 コードはhttps://github.com/a nimadversio/actmax-o ptimizer-devで利用可能

Recently, optimization has become an emerging tool for neuroscientists to study neural code. In the visual system, neurons respond to images with graded and noisy responses. Image patterns eliciting highest responses are diagnostic of the coding content of the neuron. To find these patterns, we have used black-box optimizers to search a 4096d image space, leading to the evolution of images that maximize neuronal responses. Although genetic algorithm (GA) has been commonly used, there haven't been any systematic investigations to reveal the best performing optimizer or the underlying principles necessary to improve them. Here, we conducted a large scale in silico benchmark of optimizers for activation maximization and found that Covariance Matrix Adaptation (CMA) excelled in its achieved activation. We compared CMA against GA and found that CMA surpassed the maximal activation of GA by 66% in silico and 44% in vivo. We analyzed the structure of Evolution trajectories and found that the key to success was not covariance matrix adaptation, but local search towards informative dimensions and an effective step size decay. Guided by these principles and the geometry of the image manifold, we developed SphereCMA optimizer which competed well against CMA, proving the validity of the identified principles. Code available at https://github.com/A nimadversio/ActMax-O ptimizer-Dev
翻訳日:2022-04-15 14:29:22 公開日:2022-04-14
# (参考訳) ファウショットテキスト分類のためのラベルセマンティックアウェア事前学習 [全文訳有]

Label Semantic Aware Pre-training for Few-shot Text Classification ( http://arxiv.org/abs/2204.07128v1 )

ライセンス: CC BY 4.0
Aaron Mueller, Jason Krone, Salvatore Romeo, Saab Mansour, Elman Mansimov, Yi Zhang, Dan Roth(参考訳) テキスト分類タスクでは、有用な情報はラベル名にエンコードされる。 ラベルセマンティックアウェアメントシステムは、この情報を利用して、微調整および予測時のテキスト分類性能を向上させる。 しかし、事前訓練におけるラベル・セマンティクスの使用は広く研究されていない。 そこで本研究では,テキスト分類システムの一般化とデータ効率を向上させるために,LSAP(Label Semantic Aware Pre-training)を提案する。 LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。 ドメイン一般の事前学習は大量のデータを必要とするため、ラベルのないテキストから文とラベルのペアを自動的に生成するフィルタリングとラベル付けのパイプラインを開発する。 我々は意図(ATIS, Snips, TOPv2)とトピック分類(AG News, Yahoo! Answers)について実験を行った。 lsapは、最先端のテキスト分類モデルよりも精度が大幅に向上し、ハイリソース設定でのstate of the artに匹敵するパフォーマンスを維持している。

In text classification tasks, useful information is encoded in the label names. Label semantic aware systems have leveraged this information for improved text classification performance during fine-tuning and prediction. However, use of label-semantics during pre-training has not been extensively explored. We therefore propose Label Semantic Aware Pre-training (LSAP) to improve the generalization and data efficiency of text classification systems. LSAP incorporates label semantics into pre-trained generative models (T5 in our case) by performing secondary pre-training on labeled sentences from a variety of domains. As domain-general pre-training requires large amounts of data, we develop a filtering and labeling pipeline to automatically create sentence-label pairs from unlabeled text. We perform experiments on intent (ATIS, Snips, TOPv2) and topic classification (AG News, Yahoo! Answers). LSAP obtains significant accuracy improvements over state-of-the-art models for few-shot text classification while maintaining performance comparable to state of the art in high-resource settings.
翻訳日:2022-04-15 14:26:43 公開日:2022-04-14
# AIベースのアドバイスをフォローすべきか? ヒューマンAI意思決定における適切な信頼性の測定

Should I Follow AI-based Advice? Measuring Appropriate Reliance in Human-AI Decision-Making ( http://arxiv.org/abs/2204.06916v1 )

ライセンス: Link先を確認
Max Schemmer, Patrick Hemmer, Niklas K\"uhl, Carina Benz, Gerhard Satzger(参考訳) 日常生活における多くの重要な決定は、医療や金融投資に関する決定など、アドバイザーの助けを借りて行われる。 これまでは人間の専門家や友人、家族からアドバイスを受けてきたが、近年は人工知能(AI)に基づくアドバイザーが増えている。 通常、AIによって生成されたアドバイスは、人間によって判断され、信頼または拒否される。 しかし、最近の研究は、AIのアドバイスが必ずしも有益であるとは限らないことを示している。 したがって、人間がAIのアドバイスを盲目的に頼らず、その品質を区別し、より良い意思決定をするために行動できるようにすることが目的である。 具体的には、不正なアドバイスに直面した場合には、人間が正しいアドバイスと自己再帰の存在下でAIに頼るべきである、つまり、ケースバイケースベースでAIアドバイスに対する適切な信頼(AR)を確立する。 現在の研究はARの基準を欠いている。 これにより、ARに影響を与える要因の厳格な評価が防止され、人間とAIによる意思決定のさらなる発展を妨げる。 そこで本研究では,文献に基づいてARの計測概念を導出する。 我々は、ARをアドバイス品質を識別し、それに応じて振る舞う能力を測定する2次元構成体として見ることを提案する。 本稿では,測定概念を導出し,その応用例を示し,今後の展望について概説する。

Many important decisions in daily life are made with the help of advisors, e.g., decisions about medical treatments or financial investments. Whereas in the past, advice has often been received from human experts, friends, or family, advisors based on artificial intelligence (AI) have become more and more present nowadays. Typically, the advice generated by AI is judged by a human and either deemed reliable or rejected. However, recent work has shown that AI advice is not always beneficial, as humans have shown to be unable to ignore incorrect AI advice, essentially representing an over-reliance on AI. Therefore, the aspired goal should be to enable humans not to rely on AI advice blindly but rather to distinguish its quality and act upon it to make better decisions. Specifically, that means that humans should rely on the AI in the presence of correct advice and self-rely when confronted with incorrect advice, i.e., establish appropriate reliance (AR) on AI advice on a case-by-case basis. Current research lacks a metric for AR. This prevents a rigorous evaluation of factors impacting AR and hinders further development of human-AI decision-making. Therefore, based on the literature, we derive a measurement concept of AR. We propose to view AR as a two-dimensional construct that measures the ability to discriminate advice quality and behave accordingly. In this article, we derive the measurement concept, illustrate its application and outline potential future research.
翻訳日:2022-04-15 14:02:44 公開日:2022-04-14
# 合成コードスパースオートエンコーダによる第1段階検索

Composite Code Sparse Autoencoders for first stage retrieval ( http://arxiv.org/abs/2204.07023v1 )

ライセンス: Link先を確認
Carlos Lassance, Thibault Formal, Stephane Clinchant(参考訳) そこで我々は,Syamese-BERTモデルに基づく文書表現の近似Nearest Neighbor (ANN)探索のための複合コードスパースオートエンコーダ (CCSA) アプローチを提案する。 情報検索(IR)では、ランキングパイプラインは一般的に2つの段階に分けられる。 第2段階は、より複雑なモデルに依存して候補集合を再ランクする。 近年、シャムズ・バートモデルは、伝統的な単語のバッグ・オブ・ワードのモデルを置き換えるか補完するために第1段階のランク付け器として用いられてきた。 しかし、大規模な文書コレクションのインデックス化と検索には、高密度ベクトルの効率的な類似性探索が必要である。 合成符号は自然にスパースであるため,一様正則化によりCCSAが効率よく並列反転指数を学習できることを示す。 次に,ccsaを2進量子化法として利用し,最近のグラフベースのann手法と組み合わせることを提案する。 MSMARCOデータセットを用いた実験の結果,CCSAはIVFよりも製品量子化に優れていた。 さらに、CCSAバイナリ量子化は、高いレベルのリコールとMRRを維持しながら、インデックスサイズとグラフベースのHNSW法のメモリ使用量に有益である。 第3に、画像検索の教師付き量子化手法と比較し、CCSAがそれらを上回っていることを示す。

We propose a Composite Code Sparse Autoencoder (CCSA) approach for Approximate Nearest Neighbor (ANN) search of document representations based on Siamese-BERT models. In Information Retrieval (IR), the ranking pipeline is generally decomposed in two stages: the first stage focus on retrieving a candidate set from the whole collection. The second stage re-ranks the candidate set by relying on more complex models. Recently, Siamese-BERT models have been used as first stage ranker to replace or complement the traditional bag-of-word models. However, indexing and searching a large document collection require efficient similarity search on dense vectors and this is why ANN techniques come into play. Since composite codes are naturally sparse, we first show how CCSA can learn efficient parallel inverted index thanks to an uniformity regularizer. Second, CCSA can be used as a binary quantization method and we propose to combine it with the recent graph based ANN techniques. Our experiments on MSMARCO dataset reveal that CCSA outperforms IVF with product quantization. Furthermore, CCSA binary quantization is beneficial for the index size, and memory usage for the graph-based HNSW method, while maintaining a good level of recall and MRR. Third, we compare with recent supervised quantization methods for image retrieval and find that CCSA is able to outperform them.
翻訳日:2022-04-15 14:02:21 公開日:2022-04-14
# UASデジタルカメラとLiDARを組み合わせた相乗的システムによる高原山林のバイオマス推定のための情報融合手法

Information fusion approach for biomass estimation in a plateau mountainous forest using a synergistic system comprising UAS-based digital camera and LiDAR ( http://arxiv.org/abs/2204.06746v1 )

ライセンス: Link先を確認
Rong Huang, Wei Yao, Zhong Xu, Lin Cao, Xin Shen(参考訳) 森林は気候、生態系、農業、生活環境において重要な役割を担っている。 そのため,天然資源研究における重要なデータである森林構造や機能の変化を監視するために,森林バイオマス推定手法が必要である。 正確な森林バイオマス測定は、森林の在庫や評価において重要であるが、山間部の低飛行高度での空中光検出・測光(LiDAR)を含む高密度測定は非常に高価である。 本研究の目的は、無人航空機システム(UAS)とLiDARを相乗的に組み合わせたシステムを用いて、高原山林保護区の地上バイオマス(AGB)を定量化し、それらの相補的な利点を活用することである。 本研究では,高度データ取得のために地形追従飛行を必要とするuasベースのlidarを用いた森林目録の不足を補うために,速度,空間分解能,低コストというユニークな利点を持つデジタル空中写真測量(dap)を用いた。 地形抽出に高高度および高速UASを用いて得られた疎LiDAR点と組み合わせて、高密度に正規化されたDAP点雲を得ることができ、高精度で高解像度の天蓋高さモデル(CHM)が得られる。 マルチスペクトル画像から得られたCHMとスペクトル特性に基づいて,関心領域のAGBを相当のコスト効率で推定,マッピングした。 本研究では,DAPとLiDARの相補性を利用して,大規模壁面AGBマッピングの予測モデルの開発を支援する。 この研究は、高原の山岳地帯でUASベースのデジタルカメラとLiDARを相乗的に活用する可能性を明らかにする。

Forest land plays a vital role in global climate, ecosystems, farming and human living environments. Therefore, forest biomass estimation methods are necessary to monitor changes in the forest structure and function, which are key data in natural resources research. Although accurate forest biomass measurements are important in forest inventory and assessments, high-density measurements that involve airborne light detection and ranging (LiDAR) at a low flight height in large mountainous areas are highly expensive. The objective of this study was to quantify the aboveground biomass (AGB) of a plateau mountainous forest reserve using a system that synergistically combines an unmanned aircraft system (UAS)-based digital aerial camera and LiDAR to leverage their complementary advantages. In this study, we utilized digital aerial photogrammetry (DAP), which has the unique advantages of speed, high spatial resolution, and low cost, to compensate for the deficiency of forestry inventory using UAS-based LiDAR that requires terrain-following flight for high-resolution data acquisition. Combined with the sparse LiDAR points acquired by using a high-altitude and high-speed UAS for terrain extraction, dense normalized DAP point clouds can be obtained to produce an accurate and high-resolution canopy height model (CHM). Based on the CHM and spectral attributes obtained from multispectral images, we estimated and mapped the AGB of the region of interest with considerable cost efficiency. Our study supports the development of predictive models for large-scale wall-to-wall AGB mapping by leveraging the complementarity between DAP and LiDAR measurements. This work also reveals the potential of utilizing a UAS-based digital camera and LiDAR synergistically in a plateau mountainous forest area.
翻訳日:2022-04-15 14:01:58 公開日:2022-04-14
# アンカーフリーランドマークによる解釈可能な垂直き裂定量化

Interpretable Vertebral Fracture Quantification via Anchor-Free Landmarks Localization ( http://arxiv.org/abs/2204.06818v1 )

ライセンス: Link先を確認
Alexey Zakharov, Maxim Pisov, Alim Bukharaev, Alexey Petraikin, Sergey Morozov, Victor Gombolevskiy and Mikhail Belyaev(参考訳) 椎体圧迫骨折は骨ポローシスの早期の徴候である。 これらの骨折はCT(CT)画像で見られるが、臨床環境では放射線医にしばしば見逃される。 椎骨骨折の自動分類法に関する以前の研究は、その信頼性の高い品質を証明しているが、既存の方法では解釈が困難であり、高度に病的な椎骨や脊柱症のような重度の異常のある症例を処理できない場合もある。 3次元ct画像に椎骨柱を局在化させ, 個々の椎骨を検出し, 2次元の骨折を同時に定量化する新しい2段階アルゴリズムを提案する。 従来の6-keypointsベースのアノテーションスキームを用いて,どちらのステップでもニューラルネットワークをトレーニングする。 アルゴリズムには除外基準がなく、1つのGPU上で2秒で3D CTを処理し、解釈可能で検証可能な出力を提供する。 この方法はエキスパートレベルの性能に接近し、椎骨3dの局在(平均誤差は1mm)、椎骨2dの検出(切開とリコールは0.99)、骨折同定(患者レベルのroc aucは0.096)の最先端結果を示す。 ROC AUC 0.95, 感度 0.85, 特異度 0.9 を, 未確認の椎体型を多数有する VerSe データセット上で達成し, 新たな領域に優れた一般化性を示した。

Vertebral body compression fractures are early signs of osteoporosis. Though these fractures are visible on Computed Tomography (CT) images, they are frequently missed by radiologists in clinical settings. Prior research on automatic methods of vertebral fracture classification proves its reliable quality; however, existing methods provide hard-to-interpret outputs and sometimes fail to process cases with severe abnormalities such as highly pathological vertebrae or scoliosis. We propose a new two-step algorithm to localize the vertebral column in 3D CT images and then detect individual vertebrae and quantify fractures in 2D simultaneously. We train neural networks for both steps using a simple 6-keypoints based annotation scheme, which corresponds precisely to the current clinical recommendation. Our algorithm has no exclusion criteria, processes 3D CT in 2 seconds on a single GPU, and provides an interpretable and verifiable output. The method approaches expert-level performance and demonstrates state-of-the-art results in vertebrae 3D localization (the average error is 1 mm), vertebrae 2D detection (precision and recall are 0.99), and fracture identification (ROC AUC at the patient level is up to 0.96). Our anchor-free vertebra detection network shows excellent generalizability on a new domain by achieving ROC AUC 0.95, sensitivity 0.85, specificity 0.9 on a challenging VerSe dataset with many unseen vertebra types.
翻訳日:2022-04-15 14:01:26 公開日:2022-04-14
# オプティカルフローを用いた自律衛星検出と追跡

Autonomous Satellite Detection and Tracking using Optical Flow ( http://arxiv.org/abs/2204.07025v1 )

ライセンス: Link先を確認
David Zuehlke, Daniel Posada, Madhur Tiwari, and Troy Henderson(参考訳) 本稿では,光学フローを用いて画像中の衛星の検出と追跡を自律的に行う手法を提案する。 光フローは、一連の宇宙画像中の検出された物体の速度を推定するために使用される。 画像内のほとんどの物体が恒星であることを考えると、星の動きの全体像速度は、画像のフレーム間の動きを推定するために用いられる。 全体像速度とは異なる速度プロファイルで移動しているように見える物体は、潜在空間オブジェクトとして分類される。 検出アルゴリズムは、恒星画像と衛星の地上画像の両方を用いて実行される。 最後に、このアルゴリズムは商用およびオープンソースソフトウェアアプローチを使用してテストおよび比較を行い、読者のニーズに応じて2つの選択肢を提供する。

In this paper, an autonomous method of satellite detection and tracking in images is implemented using optical flow. Optical flow is used to estimate the image velocities of detected objects in a series of space images. Given that most objects in an image will be stars, the overall image velocity from star motion is used to estimate the image's frame-to-frame motion. Objects seen to be moving with velocity profiles distinct from the overall image velocity are then classified as potential resident space objects. The detection algorithm is exercised using both simulated star images and ground-based imagery of satellites. Finally, this algorithm will be tested and compared using a commercial and an open-source software approach to provide the reader with two different options based on their need.
翻訳日:2022-04-15 14:00:58 公開日:2022-04-14
# 画像復調のための残留スイニング変圧器チャネルアテンションネットワーク

Residual Swin Transformer Channel Attention Network for Image Demosaicing ( http://arxiv.org/abs/2204.07098v1 )

ライセンス: Link先を確認
Wenzhu Xing and Karen Egiazarian(参考訳) 画像復調は、生のセンサ(カラーフィルタアレイ)データから全解像度カラー画像を補間する問題である。 過去10年間、ディープニューラルネットワークは、画像復元、特にデモサイシングにおいて、大幅なパフォーマンス向上を達成するために広く用いられてきた。 近年、視覚変換器は様々なコンピュータビジョンアプリケーションで設計され、成功を収めている。 スウィントランスフォーマー(ST)に基づく最近の画像復元手法の1つであるSwinIRは、ニューラルネットワークベースの手法よりも少ないパラメータで最先端のパフォーマンスを示す。 本稿では,SwinIRの成功に触発されて,RTTCANetと呼ばれる画像復調のためのSwin Transformerベースのネットワークを提案する。 画像の特徴を抽出するため、rstcanetは複数の残留スウィントランスチャンネルアテンションブロック(rstcab)をスタックし、2つの連続するstブロックごとにチャンネルアテンションを導入する。 大規模な実験では、RTTCANetは最先端の画像復号法より優れており、パラメータは少ないことが示されている。

Image demosaicing is problem of interpolating full- resolution color images from raw sensor (color filter array) data. During last decade, deep neural networks have been widely used in image restoration, and in particular, in demosaicing, attaining significant performance improvement. In recent years, vision transformers have been designed and successfully used in various computer vision applications. One of the recent methods of image restoration based on a Swin Transformer (ST), SwinIR, demonstrates state-of-the-art performance with a smaller number of parameters than neural network-based methods. Inspired by the success of SwinIR, we propose in this paper a novel Swin Transformer-based network for image demosaicing, called RSTCANet. To extract image features, RSTCANet stacks several residual Swin Transformer Channel Attention blocks (RSTCAB), introducing the channel attention for each two successive ST blocks. Extensive experiments demonstrate that RSTCANet out- performs state-of-the-art image demosaicing methods, and has a smaller number of parameters.
翻訳日:2022-04-15 14:00:46 公開日:2022-04-14
# RankNEAT: 優先学習課題における確率的勾配探索の性能

RankNEAT: Outperforming Stochastic Gradient Search in Preference Learning Tasks ( http://arxiv.org/abs/2204.06901v1 )

ライセンス: Link先を確認
Kosmas Pinitas, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis(参考訳) 確率勾配降下(sgd)はニューラルネットワークのトレーニング、特に画像オブジェクトやイベントなどの客観的に定義されたラベルを学習するための最適化手法である。 ニューラルネットワークが主観的に定義されたラベル(人間のデモンストレーションやアノテーションなど)に直面する場合、SGDは人間の本質的な偏見や主観性によって引き起こされる偽りや騒々しい損失の状況を調べるのに苦労する可能性がある。 ニューラルネットワークは、そのようなデータノイズを排除するために、優先学習アルゴリズムを介してトレーニングされることが多いが、デファクトトレーニング手法は勾配降下に依存している。 進化探索が嗜好学習者の訓練に与える影響に関する実証的研究が欠如していることから,増大するトポロジの神経進化を通じてランク付けを学ぶRanneATアルゴリズムを導入する。 RankNEATは、感情コンピューティング領域における従来の勾配に基づく嗜好学習よりも優れており、特に3つの異なるゲームのゲーム映像から注釈付きプレイヤーの覚醒を予測している。 RankNEATは、アーキテクチャ最適化能力が効率的な特徴選択機構として機能するため、多くの実験において勾配に基づく選好学習者(RankNet)と比較して優れた性能が得られる。 以上の結果から,RanneATは選好学習の代替として,有効かつ効率のよい進化的手法であることが示唆された。

Stochastic gradient descent (SGD) is a premium optimization method for training neural networks, especially for learning objectively defined labels such as image objects and events. When a neural network is instead faced with subjectively defined labels--such as human demonstrations or annotations--SGD may struggle to explore the deceptive and noisy loss landscapes caused by the inherent bias and subjectivity of humans. While neural networks are often trained via preference learning algorithms in an effort to eliminate such data noise, the de facto training methods rely on gradient descent. Motivated by the lack of empirical studies on the impact of evolutionary search to the training of preference learners, we introduce the RankNEAT algorithm which learns to rank through neuroevolution of augmenting topologies. We test the hypothesis that RankNEAT outperforms traditional gradient-based preference learning within the affective computing domain, in particular predicting annotated player arousal from the game footage of three dissimilar games. RankNEAT yields superior performances compared to the gradient-based preference learner (RankNet) in the majority of experiments since its architecture optimization capacity acts as an efficient feature selection mechanism, thereby, eliminating overfitting. Results suggest that RankNEAT is a viable and highly efficient evolutionary alternative to preference learning.
翻訳日:2022-04-15 14:00:26 公開日:2022-04-14
# ALICEにおける粒子識別のための機械学習

Using Machine Learning for Particle Identification in ALICE ( http://arxiv.org/abs/2204.06900v1 )

ライセンス: Link先を確認
{\L}ukasz Kamil Graczykowski, Monika Jakubowska, Kamil Rafa{\l} Deja, Maja Kabus (for the ALICE Collaboration)(参考訳) 粒子識別(PID)は、LHCにおけるALICE実験の主要な強みの1つである。 超相対論的重イオン衝突で形成される強相互作用物質の詳細な研究にとって重要な要素である。 ALICEは様々な実験技術を通じてPID情報を提供し、広い運動量範囲(100 MeV/$c$から50 GeV/$c$)の粒子の同定を可能にする。 主な課題は、様々な検出器からの情報を効果的に組み合わせることである。 したがって、PIDはモデル分類の問題であり、機械学習(ML)ソリューションで対処できる。 さらに、検出器の複雑さと検出技術の豊かさにより、PIDはコンピュータ科学コミュニティにとっても興味深い研究領域となっている。 本稿では,ALICEにおけるPIDに対するMLアプローチの現状について述べる。 我々は、lhc run 2のランダムフォレストアプローチと、ドメイン適応型ニューラルネットワークに基づくより高度なソリューションとの予備的な作業について議論し、今後のlhc run 3に向けたaliceコンピューティングソフトウェアにおける今後の実装の提案について述べる。

Particle identification (PID) is one of the main strengths of the ALICE experiment at the LHC. It is a crucial ingredient for detailed studies of the strongly interacting matter formed in ultrarelativistic heavy-ion collisions. ALICE provides PID information via various experimental techniques, allowing for the identification of particles over a broad momentum range (from around 100 MeV/$c$ to around 50 GeV/$c$). The main challenge is how to combine the information from various detectors effectively. Therefore, PID represents a model classification problem, which can be addressed using Machine Learning (ML) solutions. Moreover, the complexity of the detector and richness of the detection techniques make PID an interesting area of research also for the computer science community. In this work, we show the current status of the ML approach to PID in ALICE. We discuss the preliminary work with the Random Forest approach for the LHC Run 2 and a more advanced solution based on Domain Adaptation Neural Networks, including a proposal for its future implementation within the ALICE computing software for the upcoming LHC Run 3.
翻訳日:2022-04-15 14:00:01 公開日:2022-04-14
# (参考訳) 手に何がある? 手のジェネリック物体の3次元再構成

What's in your hands? 3D Reconstruction of Generic Objects in Hands ( http://arxiv.org/abs/2204.07153v1 )

ライセンス: CC BY 4.0
Yufei Ye, Abhinav Gupta, Shubham Tulsiani(参考訳) 我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。 既知の3dテンプレートを想定し,3dポーズ推定に問題を低減させる先行研究とは対照的に,本研究は3dテンプレートを知らずに汎用ハンドヘルドオブジェクトを再構築する。 我々の重要な知見は,手による調音が物体形状を非常に予測し,調音と視覚入力に基づいて物体を条件付きで再構成する手法を提案することである。 ハンドヘルドオブジェクトを画像化した場合、まずオフザシェルフシステムを用いて手の動きを推定し、次に正規化された手中心座標フレームの物体形状を推測する。 視覚特徴と調音認識座標の両方の情報を利用してクエリポイントを処理する暗黙のネットワークによって推定される符号付き距離でオブジェクトをパラメータ化する。 3つのデータセットで実験を行い、この手法がベースラインを一貫して上回り、多様なオブジェクトの集合を再構築可能であることを示す。 明示的な調音条件付けの利点とロバスト性を解析し、手ポーズ推定がテスト時間最適化をさらに改善できることを示す。

Our work aims to reconstruct hand-held objects given a single RGB image. In contrast to prior works that typically assume known 3D templates and reduce the problem to 3D pose estimation, our work reconstructs generic hand-held object without knowing their 3D templates. Our key insight is that hand articulation is highly predictive of the object shape, and we propose an approach that conditionally reconstructs the object based on the articulation and the visual input. Given an image depicting a hand-held object, we first use off-the-shelf systems to estimate the underlying hand pose and then infer the object shape in a normalized hand-centric coordinate frame. We parameterized the object by signed distance which are inferred by an implicit network which leverages the information from both visual feature and articulation-aware coordinates to process a query point. We perform experiments across three datasets and show that our method consistently outperforms baselines and is able to reconstruct a diverse set of objects. We analyze the benefits and robustness of explicit articulation conditioning and also show that this allows the hand pose estimation to further improve in test-time optimization.
翻訳日:2022-04-15 13:59:46 公開日:2022-04-14
# 現実的制約下でのグラフニューラルネットワークによる交流電力流れの解法

Solving AC Power Flow with Graph Neural Networks under Realistic Constraints ( http://arxiv.org/abs/2204.07000v1 )

ライセンス: Link先を確認
Luis B\"ottcher, Hinrikus Wolf, Bastian Jung, Philipp Lutat, Marc Trageser, Oliver Pohl, Andreas Ulbig, Martin Grohe(参考訳) 本稿では,現実的な制約下での交流電力フロー問題を解決するグラフニューラルネットワークアーキテクチャを提案する。 エネルギーの移行によってエネルギー産業はデジタル化され分散化されたエネルギーシステムへと変化しつつあるが、新しい負荷と発電技術を統合するための分散グリッドレベルへの移行がますます進んでいる。 配電網の省力・弾力性を確保するため,AC電力フロー計算は,配電網の運用限界を決定するか,計画手順におけるグリッド資産利用を分析する手段である。 提案手法では,グラフニューラルネットワークを用いて電力フローの物理的制約を学習するフレームワークの開発を実証する。 本稿では,トレーニングに使用する特定のトポロジや供給タスクに依存しない交流電力流定式化の一般解を学習するために,教師なしトレーニングを行うモデルアーキテクチャを提案する。 最後に,medium voltage benchmark gridsの結果を実証し,検証し,議論する。

In this paper we propose a graph neural network architecture solving the AC power flow problem under realistic constraints. While the energy transition is changing the energy industry to a digitalized and decentralized energy system, the challenges are increasingly shifting to the distribution grid level to integrate new loads and generation technologies. To ensure a save and resilient operation of distribution grids, AC power flow calculations are the means of choice to determine grid operating limits or analyze grid asset utilization in planning procedures. In our approach we demonstrate the development of a framework which makes use of graph neural networks to learn the physical constraints of the power flow. We present our model architecture on which we perform unsupervised training to learn a general solution of the AC power flow formulation that is independent of the specific topologies and supply tasks used for training. Finally, we demonstrate, validate and discuss our results on medium voltage benchmark grids.
翻訳日:2022-04-15 13:56:43 公開日:2022-04-14
# 動的対話型学習の統一分析

A Unified Analysis of Dynamic Interactive Learning ( http://arxiv.org/abs/2204.07071v1 )

ライセンス: Link先を確認
Xing Gao, Thomas Maranzatto, Lev Reyzin(参考訳) 本稿では,組合せ構造上での進化的概念の学習問題を考察する。 Emamjomeh-Zadehらによる以前の作品。 2020年]クラスタ問題やレコメンダシステムにおける非静的ユーザの好みをモデル化する方法として,インタラクティブラーニングにダイナミクスを導入した。 我々はこの問題に多くの有益な貢献をしている。 まず、[emamjomeh-zadeh et al., 2020]で分析された両方のモデルをキャプチャするフレームワークを提供することで、任意のタイプの概念進化を研究し、同じクエリの複雑性境界と以前のモデルの実行時間保証にマッチさせることができる。 この一般モデルを用いて,クエリの複雑性に関する上界と下界のギャップを埋める開放的な問題を解く。 最後に,学習者が各ラウンドでのフィードバックを単純に追従する効率的なアルゴリズムについて検討し,マルコフ連鎖モデルを用いて,斜め,星,一般のo(log n)直径グラフなどの低径グラフに対して誤り境界を与える。

In this paper we investigate the problem of learning evolving concepts over a combinatorial structure. Previous work by Emamjomeh-Zadeh et al. [2020] introduced dynamics into interactive learning as a way to model non-static user preferences in clustering problems or recommender systems. We provide many useful contributions to this problem. First, we give a framework that captures both of the models analyzed by [Emamjomeh-Zadeh et al., 2020], which allows us to study any type of concept evolution and matches the same query complexity bounds and running time guarantees of the previous models. Using this general model we solve the open problem of closing the gap between the upper and lower bounds on query complexity. Finally, we study an efficient algorithm where the learner simply follows the feedback at each round, and we provide mistake bounds for low diameter graphs such as cliques, stars, and general o(log n) diameter graphs by using a Markov Chain model.
翻訳日:2022-04-15 13:56:27 公開日:2022-04-14
# 自然学習処理を応用して心不全患者の臨床ノートのテーマを明らかにする

Leveraging Natural Learning Processing to Uncover Themes in Clinical Notes of Patients Admitted for Heart Failure ( http://arxiv.org/abs/2204.07074v1 )

ライセンス: Link先を確認
Ankita Agarwal, Krishnaprasad Thirunarayan, William L. Romine, Amanuel Alambo, Mia Cajita, Tanvi Banerjee(参考訳) 心不全は、心臓が血液や酸素を汲み上げず、身体内の他の臓器をそのまま支えられないときに起こる。 治療には薬と時々入院がある。 心不全の患者は、心血管と非心血管複合体の両方を有する。 心不全患者の臨床ノートを解析し、これらのノートで論じられた話題と、これらの患者における主要な合併症について考察する。 そこで本研究では,イリノイ大学病院健康科学システム(UI Health)の心不全患者1200名を対象に,臨床ノートに記載された主要なテーマを特定するために,トピックモデリングなどの機械学習技術を適用した。 トピック・モデリングでは、これらの臨床ノートに5つの隠されたテーマが示された。

Heart failure occurs when the heart is not able to pump blood and oxygen to support other organs in the body as it should. Treatments include medications and sometimes hospitalization. Patients with heart failure can have both cardiovascular as well as non-cardiovascular comorbidities. Clinical notes of patients with heart failure can be analyzed to gain insight into the topics discussed in these notes and the major comorbidities in these patients. In this regard, we apply machine learning techniques, such as topic modeling, to identify the major themes found in the clinical notes specific to the procedures performed on 1,200 patients admitted for heart failure at the University of Illinois Hospital and Health Sciences System (UI Health). Topic modeling revealed five hidden themes in these clinical notes, including one related to heart disease comorbidities.
翻訳日:2022-04-15 13:56:08 公開日:2022-04-14
# サンプルベース制約運動計画のための生成モデルを用いた制約多様体の近似

Approximating Constraint Manifolds Using Generative Models for Sampling-Based Constrained Motion Planning ( http://arxiv.org/abs/2204.06791v1 )

ライセンス: Link先を確認
Cihan Acar, Keng Peng Tee(参考訳) タスク制約の下でのサンプリングベースの動作計画は、設定空間におけるヌル測度制約多様体が、拒否サンプリングを極めて非効率にするため、困難である。 本稿では,制約付き動作計画問題に対する学習に基づくサンプリング戦略を提案する。 本研究では,条件変分オートエンコーダ(CVAE)と条件変分適応ネット(CGAN)の2つのよく知られた深部生成モデルを用いて,制約を満たすサンプル構成を生成する。 事前計算されたグラフの代わりに、制約パラメータに条件付き生成モデルを用いて制約多様体を近似する。 このアプローチは、利用可能なサンプリングベースのモーションプランニングアルゴリズムを変更することなく、オンラインで制約を満たすサンプルの効率的な描画を可能にする。 これら2つの生成モデルの有効性を,サンプリング精度とサンプリング分布のカバレッジの観点から評価した。 シミュレーションと実験は、2つのロボットプラットフォーム上で異なる制約タスクのために行われる。

Sampling-based motion planning under task constraints is challenging because the null-measure constraint manifold in the configuration space makes rejection sampling extremely inefficient, if not impossible. This paper presents a learning-based sampling strategy for constrained motion planning problems. We investigate the use of two well-known deep generative models, the Conditional Variational Autoencoder (CVAE) and the Conditional Generative Adversarial Net (CGAN), to generate constraint-satisfyin g sample configurations. Instead of precomputed graphs, we use generative models conditioned on constraint parameters for approximating the constraint manifold. This approach allows for the efficient drawing of constraint-satisfyin g samples online without any need for modification of available sampling-based motion planning algorithms. We evaluate the efficiency of these two generative models in terms of their sampling accuracy and coverage of sampling distribution. Simulations and experiments are also conducted for different constraint tasks on two robotic platforms.
翻訳日:2022-04-15 13:55:35 公開日:2022-04-14
# glocal:glocalized curriculum-assisted learning of multiple tasksとロボットハンドリングへの応用

GloCAL: Glocalized Curriculum-Aided Learning of Multiple Tasks with Application to Robotic Grasping ( http://arxiv.org/abs/2204.06835v1 )

ライセンス: Link先を確認
Anil Kurkcu, Cihan Acar, Domenico Campolo, Keng Peng Tee(参考訳) ロボット工学の分野は、大量のデータを必要とし、学習中の安全性を確保するため、深層強化学習を適用することが難しい。 カリキュラム学習は, サンプル効率のよい深層学習において, 優れた性能を示した。 本稿では,エージェントが複数の個別タスクを学習するためのカリキュラムを作成するアルゴリズム(GloCAL)を提案する。 最もパフォーマンスの高いクラスタから、その後に形成された新しいクラスタに転送されるグローバルポリシーを学ぶために、クラスタのグローバルタスク代表が特定され、クラスタ内の残りのタスクはローカルポリシとして学習される。 また,GloCALアルゴリズムの有効性と効率を,物体の複雑さやEGADデータセットからの難易度が変化する49個の物体の学習領域における他の手法と比較した。 その結果、glocalは100%のオブジェクトを把握できるが、他のアプローチでは1.5倍のトレーニング時間が与えられたにもかかわらず、最大86%の精度で達成できることがわかった。

The domain of robotics is challenging to apply deep reinforcement learning due to the need for large amounts of data and for ensuring safety during learning. Curriculum learning has shown good performance in terms of sample- efficient deep learning. In this paper, we propose an algorithm (named GloCAL) that creates a curriculum for an agent to learn multiple discrete tasks, based on clustering tasks according to their evaluation scores. From the highest-performing cluster, a global task representative of the cluster is identified for learning a global policy that transfers to subsequently formed new clusters, while the remaining tasks in the cluster are learned as local policies. The efficacy and efficiency of our GloCAL algorithm are compared with other approaches in the domain of grasp learning for 49 objects with varied object complexity and grasp difficulty from the EGAD! dataset. The results show that GloCAL is able to learn to grasp 100% of the objects, whereas other approaches achieve at most 86% despite being given 1.5 times longer training time.
翻訳日:2022-04-15 13:55:20 公開日:2022-04-14
# (参考訳) 大規模対話型AIシステムにおけるスキルルーティングのためのスケーラブルでロバストな自己学習 [全文訳有]

Scalable and Robust Self-Learning for Skill Routing in Large-Scale Conversational AI Systems ( http://arxiv.org/abs/2204.07135v1 )

ライセンス: CC BY 4.0
Mohammad Kachuee, Jinseok Nam, Sarthak Ahuja, Jin-Myung Won, Sungjin Lee(参考訳) スキルルーティングは、大規模会話システムにおいて重要なコンポーネントである。 従来のルールベースのスキルルーティングとは対照的に、最先端システムは自然な会話を可能にするためにモデルベースのアプローチを使用する。 人間のアノテーション、ルールベースのシステムの複製、ユーザパラフレーズに基づく緩和、バンディットに基づく学習など、そのようなモデルを訓練するために必要な監視信号を提供する。 しかし これらのアプローチは (a)乗務員の技能・技能の数の面ではスケールしない。 b)非常にコストのかかる専門家のアノテーション/ルール設計が必要です。 (c)各モデル更新において、ユーザエクスペリエンスにリスクを導入する。 本稿では,ユーザエクスペリエンスを損なうような突然のポリシー変更を起こさずに,ユーザインタラクションから学び,頻繁なモデル更新によるルーティングを漸進的に改善する,スケーラブルな自己学習手法を提案する。 このような堅牢な頻繁なモデル更新を可能にするために、我々は、各ドメインの制御されたポリシー更新を保証するためのシンプルで効果的なアプローチを提案し、その後、長いa/b実験を必要とせずにデプロイ決定を行うためのオフポリシー評価を行う。 実運用環境において提案手法の有効性を実証するため,大規模対話システム上でオフラインおよびオンラインA/B実験を行った。

Skill routing is an important component in large-scale conversational systems. In contrast to traditional rule-based skill routing, state-of-the-art systems use a model-based approach to enable natural conversations. To provide supervision signal required to train such models, ideas such as human annotation, replication of a rule-based system, relabeling based on user paraphrases, and bandit-based learning were suggested. However, these approaches: (a) do not scale in terms of the number of skills and skill on-boarding, (b) require a very costly expert annotation/rule-desi gn, (c) introduce risks in the user experience with each model update. In this paper, we present a scalable self-learning approach to explore routing alternatives without causing abrupt policy changes that break the user experience, learn from the user interaction, and incrementally improve the routing via frequent model refreshes. To enable such robust frequent model updates, we suggest a simple and effective approach that ensures controlled policy updates for individual domains, followed by an off-policy evaluation for making deployment decisions without any need for lengthy A/B experimentation. We conduct various offline and online A/B experiments on a commercial large-scale conversational system to demonstrate the effectiveness of the proposed method in real-world production settings.
翻訳日:2022-04-15 13:53:35 公開日:2022-04-14
# 衛星映像における深部車両検出

Deep Vehicle Detection in Satellite Video ( http://arxiv.org/abs/2204.06828v1 )

ライセンス: Link先を確認
Roman Pflugfelder and Axel Weissenfeld and Julian Wagner(参考訳) 本研究は,衛星映像における車両検出のための深層学習手法を提案する。 eo衛星画像では、車両の微妙さ(4-10ピクセル)と背景との類似性のため、車両検出はおそらく不可能である。 代わりに,車両移動の時間的一貫性によって空間情報の欠如を克服する衛星映像を考える。 プール層を無視し、漏洩したReLUを使用する、コンパクトな3ドル3セント畳み込みニューラルネットワークの新しい時空間モデルを提案する。 次に,NMS(Non-Maximum-Sup pression)を含む出力ヒートマップを最終セグメンテーションに使用する。 2つの新しいアノテートされた衛星ビデオの実証結果は、このアプローチが車両検出に適用可能であることを再確認した。 さらに重要なことは、WAMIデータに基づいて事前トレーニングを行い、新しいビデオのために注釈付きビデオフレームを微調整するだけで十分であることを示している。 私たちの実験では、ラスベガスの動画より複雑な交通パターンを示す新しいビデオでF_1$スコアが0.81である5つの注釈付き画像しか得られなかった。 ラスベガスでの最良の結果は0.87ドルのF_1$スコアであり、提案手法がこのベンチマークのリードメソッドとなる。

This work presents a deep learning approach for vehicle detection in satellite video. Vehicle detection is perhaps impossible in single EO satellite images due to the tininess of vehicles (4-10 pixel) and their similarity to the background. Instead, we consider satellite video which overcomes the lack of spatial information by temporal consistency of vehicle movement. A new spatiotemporal model of a compact $3 \times 3$ convolutional, neural network is proposed which neglects pooling layers and uses leaky ReLUs. Then we use a reformulation of the output heatmap including Non-Maximum-Suppress ion (NMS) for the final segmentation. Empirical results on two new annotated satellite videos reconfirm the applicability of this approach for vehicle detection. They more importantly indicate that pre-training on WAMI data and then fine-tuning on few annotated video frames for a new video is sufficient. In our experiment only five annotated images yield a $F_1$ score of 0.81 on a new video showing more complex traffic patterns than the Las Vegas video. Our best result on Las Vegas is a $F_1$ score of 0.87 which makes the proposed approach a leading method for this benchmark.
翻訳日:2022-04-15 13:43:56 公開日:2022-04-14
# 逆レンダリングのための間接照明のモデリング

Modeling Indirect Illumination for Inverse Rendering ( http://arxiv.org/abs/2204.06837v1 )

ライセンス: Link先を確認
Yuanqing Zhang, Jiaming Sun, Xingyi He, Huan Fu, Rongfei Jia, Xiaowei Zhou(参考訳) 近年の暗黙的な神経表現と微分可能レンダリングの進歩により、未知の静的照明下で撮影された多視点rgb画像から物体の形状と材料を同時に復元することができる。 有望な結果にもかかわらず、逆レンダリングを計算的に難解にする高価な再帰経路トレースを必要とするため、間接照明は従来の方法ではほとんどモデル化されない。 本稿では,空間変動による間接照明を効率的に回収する新しい手法を提案する。 重要な洞察は、間接照明は直接照明や材料と共同で推定されるのではなく、入力画像から学習した神経放射場から便利に導出できるということである。 間接照明と直接照明の視認性を適切にモデル化することにより、相互反射および無影アルベドを回収することができる。 合成データと実データの両方における実験は,これまでの研究よりも優れた性能を示し,新しい視点と照明下での現実的なレンダリングを合成する能力を示している。 コードとデータはhttps://zju3dv.githu b.io/invrender/で入手できます。

Recent advances in implicit neural representations and differentiable rendering make it possible to simultaneously recover the geometry and materials of an object from multi-view RGB images captured under unknown static illumination. Despite the promising results achieved, indirect illumination is rarely modeled in previous methods, as it requires expensive recursive path tracing which makes the inverse rendering computationally intractable. In this paper, we propose a novel approach to efficiently recovering spatially-varying indirect illumination. The key insight is that indirect illumination can be conveniently derived from the neural radiance field learned from input images instead of being estimated jointly with direct illumination and materials. By properly modeling the indirect illumination and visibility of direct illumination, interreflection- and shadow-free albedo can be recovered. The experiments on both synthetic and real data demonstrate the superior performance of our approach compared to previous work and its capability to synthesize realistic renderings under novel viewpoints and illumination. Our code and data are available at https://zju3dv.githu b.io/invrender/.
翻訳日:2022-04-15 13:43:38 公開日:2022-04-14
# サッカーにおけるプレーヤとボール検出を改善するセミスーパービジョントレーニング

Semi-Supervised Training to Improve Player and Ball Detection in Soccer ( http://arxiv.org/abs/2204.06859v1 )

ライセンス: Link先を確認
Renaud Vandeghen, Anthony Cioppa, Marc Van Droogenbroeck(参考訳) 近年,スポーツ分析において選手とボールの正確な検出が重要になっている。 最先端の手法の多くは、教師ありの方法でディープラーニングネットワークのトレーニングに依存しているため、大量の注釈付きデータを必要とする。 本稿では,サッカー放送映像の大きなラベルなしデータセットを利用して,ラベル付き画像データセットに基づいてネットワークを訓練する新しい汎用半教師あり方式を提案する。 より正確には、教師と同じアーキテクチャの学生を訓練するために、教師が後で使用するラベル付きデータに代用アノテーションを生成する教師学生アプローチを設計する。 さらに,提案の信頼性スコアに応じて,教師の予測を疑うことができる3つの学習損失パラメトリゼーションを導入する。 学習プロセスにラベルなしデータを含めることで,ラベル付きデータのみにトレーニングされた検出ネットワークの性能が大幅に向上することを示す。 最後に、ラベル付きデータとラベルなしデータの比率の異なる徹底的な性能調査を行い、新しい SoccerNet-v3 検出タスクの最初のベンチマークを作成し、mAP は52.3% である。 私たちのコードはhttps://github.com/r vandeghen/SST で利用可能です。

Accurate player and ball detection has become increasingly important in recent years for sport analytics. As most state-of-the-art methods rely on training deep learning networks in a supervised fashion, they require huge amounts of annotated data, which are rarely available. In this paper, we present a novel generic semi-supervised method to train a network based on a labeled image dataset by leveraging a large unlabeled dataset of soccer broadcast videos. More precisely, we design a teacher-student approach in which the teacher produces surrogate annotations on the unlabeled data to be used later for training a student which has the same architecture as the teacher. Furthermore, we introduce three training loss parametrizations that allow the student to doubt the predictions of the teacher during training depending on the proposal confidence score. We show that including unlabeled data in the training process allows to substantially improve the performances of the detection network trained only on the labeled data. Finally, we provide a thorough performance study including different proportions of labeled and unlabeled data, and establish the first benchmark on the new SoccerNet-v3 detection task, with an mAP of 52.3%. Our code is available at https://github.com/r vandeghen/SST .
翻訳日:2022-04-15 13:43:23 公開日:2022-04-14
# 特徴ディストレングルメントによる映像合成におけるヒューマンアイデンティティ保存モーションリターゲティング

Human Identity-Preserved Motion Retargeting in Video Synthesis by Feature Disentanglement ( http://arxiv.org/abs/2204.06862v1 )

ライセンス: Link先を確認
Jingzhe Ma and Shiqi Yu(参考訳) 人間のアクションビデオ合成におけるほとんどのモーションリターゲティング手法は、入力された映像を運動(動的情報)と形状(静的情報)に分解する。 しかし, 動的情報が他の被験者に直接伝達された場合, 不自然な合成運動が生じる。 この現象は、主に動作中の被写体依存情報を無視することによって引き起こされる。 そこで本研究では,対象映像からの主観非依存(共通動作内容)情報と,対象映像からの主観依存(個別化同一動作)情報とを組み合わせ,新たな動き再ターゲティング手法を提案する。 そのため、動画を自然な外観で合成し、身元を保存した動きを合成することができる。 提案手法では,2つのエンコーダを用いて識別表現と動作内容表現をそれぞれ抽出する。 我々は,ジェネレータの適応インスタンス正規化(adain)層と,モーションコンテンツエンコーダのインスタンス正規化(in)層を用いて新しい動作を合成する。 さらに私たちは,$chuang101$というデータセットも収集しました。 各被写体は同一の舞踊運動を行うため、各被写体の動きと同一性の間の特徴的絡み合いに便利である。 さらに、歩行認識により、情報を特定するための効率的な定量的指標を設計する。 提案手法は,被験者の身元を保存した場合に,より自然に映像を合成できることを示す。

Most motion retargeting methods in human action video synthesis decompose the input video to motion (dynamic information) and shape (static information). However, we observe if the dynamic information is directly transferred to another subject, it will result in unnatural synthesised motion. This phenomenon is mainly caused by neglecting subject-dependent information in motion. To solve the problem, we propose a novel motion retargeting method which can combine both subject-independent (common motion content) information from a source video and subject-dependent (individualized identity motion) information from a target video. So it can synthesize videos with a much natural appearance along with identity-preserved motion. In the proposed method two encoders are employed to extract identity and motion content representations respectively. We employ the adaptive instance normalization (AdaIN) layer in the generator and the instance normalization (IN) layer in the motion content encoder to synthesize the new motion. Besides, we also collected a dataset, named $Chuang101$, with 101 subjects in total. Each subject performs identical dancing movement, and so it is convenient for feature disentanglement among motion and identity of each subject. Furthermore, an efficient quantitative metric for identify information is designed by gait recognition. The experiments show the proposed method can synthesize videos more naturally when the subject's identity is preserved.
翻訳日:2022-04-15 13:43:02 公開日:2022-04-14
# RGBモダリティのみを用いた衣服交換者の再識別

Clothes-Changing Person Re-identification with RGB Modality Only ( http://arxiv.org/abs/2204.06890v1 )

ライセンス: Link先を確認
Xinqian Gu, Hong Chang, Bingpeng Ma, Shutao Bai, Shiguang Shan, Xilin Chen(参考訳) 服装変更者再識別(re-id)に対処する鍵は、顔、髪型、体型、歩行などの無関係な特徴を抽出することである。 現在の作品のほとんどがマルチモダリティ情報(シルエットやスケッチなど)からの身体形状のモデル化に重点を置いているが、元のrgb画像では服の無関係な情報を十分に活用していない。 本稿では,RGB画像から衣料非関連特徴を抽出し,re-idモデルw.r.t.衣料の予測力をペナルティ化することにより,衣料非関連特徴を抽出するCALを提案する。 大規模な実験では、RGB画像のみを使用することで、CALは広く使用されている衣服変更者のre-idベンチマークにおいて、最先端の手法をすべて上回っている。 さらに、画像と比較すると、ビデオにはよりリッチな外観と、適切な時空間パターンをモデル化し、衣服の変化を支援するための時間情報が含まれている。 衣料品交換ビデオのリidデータセットは公開されていないため,ccvidという新しいデータセットをコントリビュートし,時空間情報のモデリングに多くの改善の余地があることを実証する。 コードと新しいデータセットは、https://github.com/g uxinqian/Simple-CCRe IDで入手できる。

The key to address clothes-changing person re-identification (re-id) is to extract clothes-irrelevant features, e.g., face, hairstyle, body shape, and gait. Most current works mainly focus on modeling body shape from multi-modality information (e.g., silhouettes and sketches), but do not make full use of the clothes-irrelevant information in the original RGB images. In this paper, we propose a Clothes-based Adversarial Loss (CAL) to mine clothes-irrelevant features from the original RGB images by penalizing the predictive power of re-id model w.r.t. clothes. Extensive experiments demonstrate that using RGB images only, CAL outperforms all state-of-the-art methods on widely-used clothes-changing person re-id benchmarks. Besides, compared with images, videos contain richer appearance and additional temporal information, which can be used to model proper spatiotemporal patterns to assist clothes-changing re-id. Since there is no publicly available clothes-changing video re-id dataset, we contribute a new dataset named CCVID and show that there exists much room for improvement in modeling spatiotemporal information. The code and new dataset are available at: https://github.com/g uxinqian/Simple-CCRe ID.
翻訳日:2022-04-15 13:42:40 公開日:2022-04-14
# 教師なし人物再同定のためのインプシットサンプル拡張

Implicit Sample Extension for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2204.06892v1 )

ライセンス: Link先を確認
Xinyu Zhang, Dongdong Li, Zhigang Wang, Jian Wang, Errui Ding, Javen Qinfeng Shi, Zhaoxiang Zhang, Jingdong Wang(参考訳) 既存の教師なし人物再識別法(Re-ID)はクラスタリングを用いてモデルトレーニングに擬似ラベルを生成する。 残念ながら、クラスタリングは時に異なる真のアイデンティティを混ぜたり、同じアイデンティティを2つ以上のサブクラスタに分割する。 これらのノイズクラスタのトレーニングは、Re-ID精度を大幅に損なう。 各idのサンプルが限られているため、正確なクラスタを明らかにするための基礎となる情報が不足している可能性がある。 これらの情報を見つけるために,クラスタ境界周辺のサポートサンプルを生成するために,暗黙的なサンプル拡張 (\ourwholemethod) 法を提案する。 具体的には、進行線形補間(PLI)戦略により、実際のサンプルとその周辺クラスタから、埋め込み空間におけるサポートサンプルを生成する。 PLIは2つの重要な要因、すなわち2つの生成を制御する。 1)実際の試料からK-アネレストクラスターへの方向と 2) k-nearestクラスタからコンテキスト情報を混合する度合。 一方、サポートサンプルを考えると、iseはさらにラベル保存損失を使用して、対応する実際のサンプルにプルすることで、各クラスタのコンパクト化を実現している。 その結果、ISEはクラスタリングエラーを「サブとミックス」し、Re-ID性能を改善する。 広範な実験により,提案手法の有効性が示され,教師なしの人物再識別における最先端の性能が得られた。 コードは \url{https://github.com/p addlepaddle/paddlecl as} で入手できる。

Most existing unsupervised person re-identification (Re-ID) methods use clustering to generate pseudo labels for model training. Unfortunately, clustering sometimes mixes different true identities together or splits the same identity into two or more sub clusters. Training on these noisy clusters substantially hampers the Re-ID accuracy. Due to the limited samples in each identity, we suppose there may lack some underlying information to well reveal the accurate clusters. To discover these information, we propose an Implicit Sample Extension (\OurWholeMethod) method to generate what we call support samples around the cluster boundaries. Specifically, we generate support samples from actual samples and their neighbouring clusters in the embedding space through a progressive linear interpolation (PLI) strategy. PLI controls the generation with two critical factors, i.e., 1) the direction from the actual sample towards its K-nearest clusters and 2) the degree for mixing up the context information from the K-nearest clusters. Meanwhile, given the support samples, ISE further uses a label-preserving loss to pull them towards their corresponding actual samples, so as to compact each cluster. Consequently, ISE reduces the "sub and mixed" clustering errors, thus improving the Re-ID performance. Extensive experiments demonstrate that the proposed method is effective and achieves state-of-the-art performance for unsupervised person Re-ID. Code is available at: \url{https://github.com/P addlePaddle/PaddleCl as}.
翻訳日:2022-04-15 13:42:16 公開日:2022-04-14
# 教師なしのディープラーニングがChan-Veseモデルに到達

Unsupervised Deep Learning Meets Chan-Vese Model ( http://arxiv.org/abs/2204.06951v1 )

ライセンス: Link先を確認
Dihan Zheng, Chenglong Bao, Zuoqiang Shi, Haibin Ling, Kaisheng Ma(参考訳) Chan-Vese(CV)モデルは、イメージセグメンテーションにおける古典的な領域ベースの手法である。 しかし、その一貫した仮定は実用的応用に対して常に成り立つとは限らない。 多くの改善が提案されているが、問題はまだ解決されていない。 本研究では,CVモデルとディープニューラルネットワークを統合した教師なし画像分割手法を提案する。 私たちの基本的なアイデアは、イメージを潜在空間にマッピングして、画像空間における分割的な定数仮定の違反を緩和するディープニューラルネットワークを適用することです。 我々は、この概念を古典的なベイズ的枠組みの下で定式化し、cvモデルに先行項を保ちながらエビデンス下限項(elbo)を近似する。 したがって、我々のモデルは入力画像自体が必要であり、外部データセットからの事前トレーニングを必要としない。 さらに,マルチフェーズケースと,教師なし画像セグメンテーションに基づくデータセットに拡張する。 本モデルの有効性を検証し,提案手法が他の教師なしセグメンテーション手法よりも顕著に優れていることを示す。

The Chan-Vese (CV) model is a classic region-based method in image segmentation. However, its piecewise constant assumption does not always hold for practical applications. Many improvements have been proposed but the issue is still far from well solved. In this work, we propose an unsupervised image segmentation approach that integrates the CV model with deep neural networks, which significantly improves the original CV model's segmentation accuracy. Our basic idea is to apply a deep neural network that maps the image into a latent space to alleviate the violation of the piecewise constant assumption in image space. We formulate this idea under the classic Bayesian framework by approximating the likelihood with an evidence lower bound (ELBO) term while keeping the prior term in the CV model. Thus, our model only needs the input image itself and does not require pre-training from external datasets. Moreover, we extend the idea to multi-phase case and dataset based unsupervised image segmentation. Extensive experiments validate the effectiveness of our model and show that the proposed method is noticeably better than other unsupervised segmentation approaches.
翻訳日:2022-04-15 13:41:58 公開日:2022-04-14
# 意味セグメンテーションのための画像間関係知識蒸留

Cross-Image Relational Knowledge Distillation for Semantic Segmentation ( http://arxiv.org/abs/2204.06986v1 )

ライセンス: Link先を確認
Chuanguang Yang, Helong Zhou, Zhulin An, Xue Jiang, Yongjun Xu, Qian Zhang(参考訳) セマンティックセグメンテーションのための現在の知識蒸留(KD)法は、個々のデータサンプルから生成された教師の構造化情報を模倣するよう学生に誘導することが多い。 しかし、KDに有用なさまざまな画像間での画素間のグローバルな意味関係を無視する。 本稿では,画像全体の構造的画素間関係と画素間関係に着目した新しい画像間関係kd(cirkd)を提案する。 モチベーションは、優れた教師ネットワークがグローバルなピクセル依存の観点から、十分に構造化された特徴空間を構築することができることである。 CIRKDは、教師によるより優れた構造的意味関係を模倣し、セグメンテーション性能を向上させる。 Cityscapes, CamVid, Pascal VOCデータセットに対する実験結果から, 現状蒸留法に対する提案手法の有効性が示された。 コードはhttps://github.com/w inycg/cirkdで入手できる。

Current Knowledge Distillation (KD) methods for semantic segmentation often guide the student to mimic the teacher's structured information generated from individual data samples. However, they ignore the global semantic relations among pixels across various images that are valuable for KD. This paper proposes a novel Cross-Image Relational KD (CIRKD), which focuses on transferring structured pixel-to-pixel and pixel-to-region relations among the whole images. The motivation is that a good teacher network could construct a well-structured feature space in terms of global pixel dependencies. CIRKD makes the student mimic better structured semantic relations from the teacher, thus improving the segmentation performance. Experimental results over Cityscapes, CamVid and Pascal VOC datasets demonstrate the effectiveness of our proposed approach against state-of-the-art distillation methods. The code is available at https://github.com/w inycg/CIRKD.
翻訳日:2022-04-15 13:40:28 公開日:2022-04-14
# Egocentric Human-Object Interaction Detection Exploiting Synthetic Data

Egocentric Human-Object Interaction Detection Exploiting Synthetic Data ( http://arxiv.org/abs/2204.07061v1 )

ライセンス: Link先を確認
Rosario Leonardi, Francesco Ragusa, Antonino Furnari, and Giovanni Maria Farinella(参考訳) 産業分野における自己中心的ヒューマンオブジェクトインタラクション(ehois)の検出の問題を考える。 大量の実画像の収集とラベリングが難しいため,特定の産業シナリオにおいて,ehoi検出用に自動ラベル付けされたフォトリアリスティック合成ファーストパーソンビジョン(fpv)画像を生成するパイプラインとツールを提案する。 EHOI検出の課題に対処するため,手やシーン内の物体を検知し,現在どの物体が相互作用に関与しているかを決定する手法を提案する。 提案手法の性能を,最先端のベースラインのセットと比較する。 その結果,合成データセットを用いることで,EHOI検出システムの性能が向上することがわかった。 このトピックについての研究を促進するため、提案されたデータセットを以下の url で公開している。

We consider the problem of detecting Egocentric HumanObject Interactions (EHOIs) in industrial contexts. Since collecting and labeling large amounts of real images is challenging, we propose a pipeline and a tool to generate photo-realistic synthetic First Person Vision (FPV) images automatically labeled for EHOI detection in a specific industrial scenario. To tackle the problem of EHOI detection, we propose a method that detects the hands, the objects in the scene, and determines which objects are currently involved in an interaction. We compare the performance of our method with a set of state-of-the-art baselines. Results show that using a synthetic dataset improves the performance of an EHOI detection system, especially when few real data are available. To encourage research on this topic, we publicly release the proposed dataset at the following url: https://iplab.dmi.un ict.it/EHOI_SYNTH/.
翻訳日:2022-04-15 13:40:13 公開日:2022-04-14
# 合成データと実データを用いたパノプティカルセグメンテーション

Panoptic Segmentation using Synthetic and Real Data ( http://arxiv.org/abs/2204.07069v1 )

ライセンス: Link先を確認
Camillo Quattrocchi, Daniele Di Mauro, Antonino Furnari, Giovanni Maria Farinella(参考訳) ユーザと周囲の環境の関係を理解することは、作業現場でユーザを支援するのに役立ちます。 例えば、ウェアラブルデバイスで収集された画像やビデオからユーザが対話しているオブジェクトを理解することは、作業者に特定のオブジェクトの使用を知らせ、生産性を高め、事故を防止するのに役立ちます。 現代のビジョンシステムは、オブジェクト検出、セマンティクス、およびパンオプティカルセグメンテーションのための高度なアルゴリズムを頼りにすることができるが、これらの方法は依然として大量のドメイン固有のラベル付きデータを必要とする。 そこで本研究では,実環境と実物体の3次元モデルから合成画像を生成するパイプラインを提案する。 生成された画像は自動的にラベル付けされ、取得に手間がかからない。 提案したパイプラインをエクスプロイトし、パン光学セグメントの自動ラベル付き合成画像からなるデータセットを生成する。 このセットは、微調整のための少数の手動による実画像によって補完される。 実験により、合成画像を使用することで、適切なパノプティクスセグメンテーション性能を得るために必要な実画像の数を劇的に削減できることが示された。

Being able to understand the relations between the user and the surrounding environment is instrumental to assist users in a worksite. For instance, understanding which objects a user is interacting with from images and video collected through a wearable device can be useful to inform the worker on the usage of specific objects in order to improve productivity and prevent accidents. Despite modern vision systems can rely on advanced algorithms for object detection, semantic and panoptic segmentation, these methods still require large quantities of domain-specific labeled data, which can be difficult to obtain in industrial scenarios. Motivated by this observation, we propose a pipeline which allows to generate synthetic images from 3D models of real environments and real objects. The generated images are automatically labeled and hence effortless to obtain. Exploiting the proposed pipeline, we generate a dataset comprising synthetic images automatically labeled for panoptic segmentation. This set is complemented by a small number of manually labeled real images for fine-tuning. Experiments show that the use of synthetic images allows to drastically reduce the number of real images needed to obtain reasonable panoptic segmentation performance.
翻訳日:2022-04-15 13:39:57 公開日:2022-04-14
# 注視データをアノテーションとして用いた弱教師付き物体検出

Weakly Supervised Attended Object Detection Using Gaze Data as Annotations ( http://arxiv.org/abs/2204.07090v1 )

ライセンス: Link先を確認
Michele Mazzamuto, Francesco Ragusa, Antonino Furnari, Giovanni Signorello, Giovanni Maria Farinella(参考訳) 本研究は,文化施設の来訪者(来場者,来場者)が観察する物体の検出と認識に関する課題を,自発的視点から検討する。 問題に対する標準的なアプローチは、すべてのオブジェクトを検出し、視線トラッカーによって測定された訪問者の視線と最も重なるものを選択することである。 標準物体検出器を訓練するために大量のデータをラベル付けすることはコストと時間の観点から高価であるので,視線データのみに依存するタスクの弱い教師付きバージョンと,参加者のクラスを示すフレームレベルラベルを提案する。 そこで本研究では,エゴセントリック映像と博物館訪問者の視線座標からなる新しいデータセットを提案する。 そこで我々は,収集したデータから弱教師付き対象検出を行うために,3つの異なるベースラインを比較した。 提案手法は, より高速なR-CNNに基づく完全教師付き検出器に対して, かなりの時間を節約できるような, 弱い教師付き方式で良好な性能を達成できることが示唆された。 このトピックについての研究を促進するため、コードとデータセットを以下のurlで公開しています。

We consider the problem of detecting and recognizing the objects observed by visitors (i.e., attended objects) in cultural sites from egocentric vision. A standard approach to the problem involves detecting all objects and selecting the one which best overlaps with the gaze of the visitor, measured through a gaze tracker. Since labeling large amounts of data to train a standard object detector is expensive in terms of costs and time, we propose a weakly supervised version of the task which leans only on gaze data and a frame-level label indicating the class of the attended object. To study the problem, we present a new dataset composed of egocentric videos and gaze coordinates of subjects visiting a museum. We hence compare three different baselines for weakly supervised attended object detection on the collected data. Results show that the considered approaches achieve satisfactory performance in a weakly supervised manner, which allows for significant time savings with respect to a fully supervised detector based on Faster R-CNN. To encourage research on the topic, we publicly release the code and the dataset at the following url: https://iplab.dmi.un ict.it/WS_OBJ_DET/
翻訳日:2022-04-15 13:39:36 公開日:2022-04-14
# DeiT III: ViTの復讐

DeiT III: Revenge of the ViT ( http://arxiv.org/abs/2204.07118v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Herv\'e J\'egou(参考訳) Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。 入力データや特定のタスクの優先順位を組み込んだ最近のアーキテクチャとは対照的に、組み込みアーキテクチャの優先順位は限られている。 最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。 本稿では,ViTの教師付きトレーニングを再考する。 我々の手順は、ResNet-50をトレーニングするためのレシピを構築し、単純化する。 これには,自己教師型学習のプラクティスに近い,わずか3つの拡張を備えた,新たなシンプルなデータ拡張手順が含まれている。 画像分類 (imagenet-1k with and without pre-training on imagenet-21k), transfer learning and semantic segmentation) における評価では, vit のトレーニングレシピは前回と大きく異なる。 監視でトレーニングされたViTのパフォーマンスは、最近のアーキテクチャと同等であることも明らかにしています。 vitで実証された最近の自己監視アプローチのベースラインとして,より優れた結果が期待できる。

A Vision Transformer (ViT) is a simple neural architecture amenable to serve several computer vision tasks. It has limited built-in architectural priors, in contrast to more recent architectures that incorporate priors either about the input data or of specific tasks. Recent works show that ViTs benefit from self-supervised pre-training, in particular BerT-like pre-training like BeiT. In this paper, we revisit the supervised training of ViTs. Our procedure builds upon and simplifies a recipe introduced for training ResNet-50. It includes a new simple data-augmentation procedure with only 3 augmentations, closer to the practice in self-supervised learning. Our evaluations on Image classification (ImageNet-1k with and without pre-training on ImageNet-21k), transfer learning and semantic segmentation show that our procedure outperforms by a large margin previous fully supervised training recipes for ViT. It also reveals that the performance of our ViT trained with supervision is comparable to that of more recent architectures. Our results could serve as better baselines for recent self-supervised approaches demonstrated on ViT.
翻訳日:2022-04-15 13:39:17 公開日:2022-04-14
# gifs: 一般形状表現のための神経暗黙関数

GIFS: Neural Implicit Function for General Shape Representation ( http://arxiv.org/abs/2204.07126v1 )

ライセンス: Link先を確認
Jianglong Ye, Yuntao Chen, Naiyan Wang, Xiaolong Wang(参考訳) 近年の神経暗黙機能の発達は,高品質な3次元形状再構成において大きな成功を収めている。 しかし、ほとんどの作品では空間を内部と外部に分割し、その表現力は単層と水密な形状に制限される。 この制限は、退屈なデータ処理(非水密な生データを水密に変換する)と、現実世界の一般的なオブジェクト形状を表現できないことに繋がる。 本研究では,多層面を有する非水密形状と形状を含む一般形状を表現する新しい手法を提案する。 本稿では,3次元形状の一般インプリシット関数(GIFS)を導入し,各2点間の関係を点と面の関係ではなくモデル化する。 3D空間を事前に定義された内側の領域に分割する代わりに、GIFSは2つの点が任意の表面で分離されているかどうかを符号化する。 ShapeNetの実験では、GIFSは再現性、レンダリング効率、視覚的忠実度の観点から、従来の最先端手法よりも優れていた。 プロジェクトページはhttps://jianglongye. com/gifs。

Recent development of neural implicit function has shown tremendous success on high-quality 3D shape reconstruction. However, most works divide the space into inside and outside of the shape, which limits their representing power to single-layer and watertight shapes. This limitation leads to tedious data processing (converting non-watertight raw data to watertight) as well as the incapability of representing general object shapes in the real world. In this work, we propose a novel method to represent general shapes including non-watertight shapes and shapes with multi-layer surfaces. We introduce General Implicit Function for 3D Shape (GIFS), which models the relationships between every two points instead of the relationships between points and surfaces. Instead of dividing 3D space into predefined inside-outside regions, GIFS encodes whether two points are separated by any surface. Experiments on ShapeNet show that GIFS outperforms previous state-of-the-art methods in terms of reconstruction quality, rendering efficiency, and visual fidelity. Project page is available at https://jianglongye. com/gifs .
翻訳日:2022-04-15 13:38:58 公開日:2022-04-14
# 教師なしビデオ分解のための変形可能なスプライト

Deformable Sprites for Unsupervised Video Decomposition ( http://arxiv.org/abs/2204.07151v1 )

ライセンス: Link先を確認
Vickie Ye, Zhengqi Li, Richard Tucker, Angjoo Kanazawa, Noah Snavely(参考訳) 入力ビデオから動的シーンの永続的要素を抽出する手法について述べる。 各シーン要素を、3つのコンポーネントからなる \emph{deformable sprite} として表現します。 1)ビデオ全体の2次元テクスチャ画像。 2)当該素子のフレーム毎マスク、及び 3)テクスチャ画像を各ビデオフレームにマッピングする非剛性変形。 その結果生じる分解により、一貫したビデオ編集のようなアプリケーションが可能になる。 Deformable Spritesは、個々のビデオに最適化されたビデオ自動エンコーダモデルの一種で、大規模なデータセットのトレーニングを必要とせず、事前トレーニングされたモデルに依存しない。 さらに,提案手法では,オブジェクトマスクや他のユーザ入力は必要とせず,従来よりも広い範囲の移動物体を探索する。 我々は,標準ビデオデータセットに対するアプローチを評価し,インターネット上の多様なビデオに対して質的結果を示す。 コードとビデオの結果はhttps://deformable-s prites.github.ioで確認できる。

We describe a method to extract persistent elements of a dynamic scene from an input video. We represent each scene element as a \emph{Deformable Sprite} consisting of three components: 1) a 2D texture image for the entire video, 2) per-frame masks for the element, and 3) non-rigid deformations that map the texture image into each video frame. The resulting decomposition allows for applications such as consistent video editing. Deformable Sprites are a type of video auto-encoder model that is optimized on individual videos, and does not require training on a large dataset, nor does it rely on pre-trained models. Moreover, our method does not require object masks or other user input, and discovers moving objects of a wider variety than previous work. We evaluate our approach on standard video datasets and show qualitative results on a diverse array of Internet videos. Code and video results can be found at https://deformable-s prites.github.io
翻訳日:2022-04-15 13:38:40 公開日:2022-04-14
# MiniViT: 軽量多重化による視覚変換器の圧縮

MiniViT: Compressing Vision Transformers with Weight Multiplexing ( http://arxiv.org/abs/2204.07154v1 )

ライセンス: Link先を確認
Jinnian Zhang, Houwen Peng, Kan Wu, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu Yuan(参考訳) ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。 しかし、ViTモデルは膨大な数のパラメータに悩まされ、メモリ制限のあるデバイスに適用性を制限する。 この問題を軽減するために,同じ性能を維持しつつ,視覚変換器のパラメータ削減を実現する新しい圧縮フレームワークであるMiniViTを提案する。 MiniViTの中心的な考え方は、連続するトランスバータブロックの重みを倍にすることである。 具体的には、重みを層間で共有すると同時に、多様性を高めるために重みを変換します。 自己注意による重量蒸留は、大規模ViTモデルから重量多重化コンパクトモデルへの知識伝達にも応用される。 総合的な実験でMiniViTの有効性を実証し、事前訓練したSwin-B変圧器のサイズを48\%削減し、ImageNetのTop-1精度を1.0\%向上できることを示した。 さらに、MiniViTは1層のパラメータを使って86Mから9Mまでの9.7倍のDeiT-Bを圧縮できる。 最後に、ダウンストリームベンチマークの性能を報告し、MiniViTの転送可能性を検証する。 コードとモデルはここで入手できる。

Vision Transformer (ViT) models have recently drawn much attention in computer vision due to their high model capability. However, ViT models suffer from huge number of parameters, restricting their applicability on devices with limited memory. To alleviate this problem, we propose MiniViT, a new compression framework, which achieves parameter reduction in vision transformers while retaining the same performance. The central idea of MiniViT is to multiplex the weights of consecutive transformer blocks. More specifically, we make the weights shared across layers, while imposing a transformation on the weights to increase diversity. Weight distillation over self-attention is also applied to transfer knowledge from large-scale ViT models to weight-multiplexed compact models. Comprehensive experiments demonstrate the efficacy of MiniViT, showing that it can reduce the size of the pre-trained Swin-B transformer by 48\%, while achieving an increase of 1.0\% in Top-1 accuracy on ImageNet. Moreover, using a single-layer of parameters, MiniViT is able to compress DeiT-B by 9.7 times from 86M to 9M parameters, without seriously compromising the performance. Finally, we verify the transferability of MiniViT by reporting its performance on downstream benchmarks. Code and models are available at here.
翻訳日:2022-04-15 13:37:35 公開日:2022-04-14
# 異なる注意を伴うパンオプティカルセグメンテーションの合同予測

Joint Forecasting of Panoptic Segmentations with Difference Attention ( http://arxiv.org/abs/2204.07157v1 )

ライセンス: Link先を確認
Colin Graber, Cyril Jazra, Wenjie Luo, Liangyan Gui, Alexander Schwing(参考訳) 表現の予測は安全かつ効果的な自律性のために重要である。 このため、最近の研究において汎視的セグメンテーションは魅力的な表現として研究されている。 しかし、パンオプティカルセグメンテーション予測に関する最近の最先端は、2つの問題に苦しんでいる。第一に、個々のオブジェクトインスタンスは互いに独立して扱われ、第二に、個々のオブジェクトインスタンスの予測はヒューリスティックな方法でマージされる。 両問題に対処するため,我々は「差分注意」に基づく変圧器モデルを用いて,シーン内の全てのオブジェクトを共同で予測する新しい汎視的セグメンテーション予測モデルについて検討した。 さらに、深い推定を考慮に入れて予測を洗練する。 提案したモデルをCityscapesとAIODriveデータセット上で評価する。 位置などの量の違いによって,速度や加速度についてモデルが明確に推論できるため,予測に特に注意が向けられる。 これにより、panoptic segmentation forecasting metricsの最先端の成果が得られる。

Forecasting of a representation is important for safe and effective autonomy. For this, panoptic segmentations have been studied as a compelling representation in recent work. However, recent state-of-the-art on panoptic segmentation forecasting suffers from two issues: first, individual object instances are treated independently of each other; second, individual object instance forecasts are merged in a heuristic manner. To address both issues, we study a new panoptic segmentation forecasting model that jointly forecasts all object instances in a scene using a transformer model based on 'difference attention.' It further refines the predictions by taking depth estimates into account. We evaluate the proposed model on the Cityscapes and AIODrive datasets. We find difference attention to be particularly suitable for forecasting because the difference of quantities like locations enables a model to explicitly reason about velocities and acceleration. Because of this, we attain state-of-the-art on panoptic segmentation forecasting metrics.
翻訳日:2022-04-15 13:37:13 公開日:2022-04-14
# 多領域対話状態追跡のための動的スキーマグラフ融合ネットワーク

Dynamic Schema Graph Fusion Network for Multi-Domain Dialogue State Tracking ( http://arxiv.org/abs/2204.06677v1 )

ライセンス: Link先を確認
Yue Feng, Aldo Lipani, Fanghua Ye, Qiang Zhang, Emine Yilmaz(参考訳) 対話状態追跡(DST)は、会話中にユーザの意図を追跡することを目的としている。 DSTでは、ドメインとスロットの関係をモデル化することはまだ未研究の問題である。 このような関係を考慮に入れた既存のアプローチは、(1)事前のスロットドメインメンバーシップ関係と対話対応のダイナミックスロット関係を明示的に融合し、(2)見当たらないドメインに一般化する。 これらの問題に対処するため,本稿では,従来のスロット領域のメンバシップ関係と対話対応の動的スロット関係を明示的に融合させる動的スキーマグラフを生成する,新しい \textbf{D}ynamic \textbf{S}chema \textbf{G}raph \textbf{F}usion \textbf{Net}work (\textbf{DSGFNet}) を提案する。 また、新しいドメインへの知識転送を容易にするためにスキーマを使用する。 DSGFNetは、対話発話エンコーダ、スキーマグラフエンコーダ、対話対応スキーマグラフ進化ネットワーク、およびスキーマグラフ拡張対話状態デコーダから構成される。 ベンチマークデータセット(SGD、MultiWOZ2.1、MultiWOZ2.2)の実証結果は、DSGFNetが既存の手法より優れていることを示している。

Dialogue State Tracking (DST) aims to keep track of users' intentions during the course of a conversation. In DST, modelling the relations among domains and slots is still an under-studied problem. Existing approaches that have considered such relations generally fall short in: (1) fusing prior slot-domain membership relations and dialogue-aware dynamic slot relations explicitly, and (2) generalizing to unseen domains. To address these issues, we propose a novel \textbf{D}ynamic \textbf{S}chema \textbf{G}raph \textbf{F}usion \textbf{Net}work (\textbf{DSGFNet}), which generates a dynamic schema graph to explicitly fuse the prior slot-domain membership relations and dialogue-aware dynamic slot relations. It also uses the schemata to facilitate knowledge transfer to new domains. DSGFNet consists of a dialogue utterance encoder, a schema graph encoder, a dialogue-aware schema graph evolving network, and a schema graph enhanced dialogue state decoder. Empirical results on benchmark datasets (i.e., SGD, MultiWOZ2.1, and MultiWOZ2.2), show that DSGFNet outperforms existing methods.
翻訳日:2022-04-15 13:36:56 公開日:2022-04-14
# 非随伴計量の時系列:線形分解による変数の寄与要因の同定と解釈

Time Series of Non-Additive Metrics: Identification and Interpretation of Contributing Factors of Variance by Linear Decomposition ( http://arxiv.org/abs/2204.06688v1 )

ライセンス: Link先を確認
Alex Glushkovsky(参考訳) 本研究では,非付加的な指標の時系列を線形に分解し,寄与要因(入力特徴)の同定と解釈を可能にする。 比のような非付加的計量は様々な領域で広く使われている。 一般に、関心の計量を計算するのに使用される基礎変数の事前の集約を必要とする。 直近の課題は、入力特徴と基礎となる変数が、アカウントや顧客識別、時間ポイントなどの要素に沿って2次元配列として形成される場合である。 非加法計量の時系列を入力特徴の関数として直接モデル化する。 The article discusses a five-step approach: (1) segmentations of input features and the underlying variables of the metric that are supported by unsupervised autoencoders, (2) univariate or joint fittings of the metric by the aggregated input features on the segmented domains, (3) transformations of pre-screened input features according to the fitted models, (4) aggregation of the transformed features as time series, and (5) modelling of the metric time series as a sum of constrained linear effects of the aggregated features. あるいは、数値微分による近似は計量を線形化すると考えられる。 ステップ (2) の要素レベルの単変量または共同モデリングを可能にする。 これらの分析ステップのプロセスは、生き残った入力特徴の時系列の和として、計量の後方に見える説明的分解を可能にする。 本論文は、仮説的小売信用ポートフォリオの月次損失対均衡率を研究する合成例を含む。 生き残った入力特徴以外の潜在要因がメトリックに重大な影響を与えないことを検証するために、残差時系列に対して統計的プロセス制御が導入された。

The research paper addresses linear decomposition of time series of non-additive metrics that allows for the identification and interpretation of contributing factors (input features) of variance. Non-additive metrics, such as ratios, are widely used in a variety of domains. It commonly requires preceding aggregations of underlying variables that are used to calculate the metric of interest. The latest poses a dimensionality challenge when the input features and underlying variables are formed as two-dimensional arrays along elements, such as account or customer identifications, and time points. It rules out direct modeling of the time series of a non-additive metric as a function of input features. The article discusses a five-step approach: (1) segmentations of input features and the underlying variables of the metric that are supported by unsupervised autoencoders, (2) univariate or joint fittings of the metric by the aggregated input features on the segmented domains, (3) transformations of pre-screened input features according to the fitted models, (4) aggregation of the transformed features as time series, and (5) modelling of the metric time series as a sum of constrained linear effects of the aggregated features. Alternatively, approximation by numerical differentiation has been considered to linearize the metric. It allows for element level univariate or joint modeling of step (2). The process of these analytical steps allows for a backward-looking explanatory decomposition of the metric as a sum of time series of the survived input features. The paper includes a synthetic example that studies loss-to-balance monthly rates of a hypothetical retail credit portfolio. To validate that no latent factors other than the survived input features have significant impacts on the metric, Statistical Process Control has been introduced for the residual time series.
翻訳日:2022-04-15 13:35:48 公開日:2022-04-14
# (参考訳) FREDA:フレキシブルな関係抽出データアノテーション [全文訳有]

FREDA: Flexible Relation Extraction Data Annotation ( http://arxiv.org/abs/2204.07150v1 )

ライセンス: CC BY 4.0
Michael Strobl, Amine Trabelsi, Osmar Zaiane(参考訳) 正確な関係抽出モデルを効果的に訓練するためには、十分なラベル付きデータが必要である。 適切なラベル付けされたデータは入手が困難であり、そのようなデータの注釈付けは難しい作業である。 以前の研究では、正確さを犠牲にするか、タスクが正確であれば非常に時間がかかることが示されている。 我々は,関係抽出のための高品質なデータセットを迅速に作成するための手法を提案する。 生成したデータセットでリレーショナル抽出を行うように訓練されたニューラルモデルは、非常によい結果を得て、他のデータセットによく適応する。 本研究では,19の関係に対して10,022の文を適度な時間にアノテートし,各関係について一般的なベースラインモデルを訓練した。

To effectively train accurate Relation Extraction models, sufficient and properly labeled data is required. Adequately labeled data is difficult to obtain and annotating such data is a tricky undertaking. Previous works have shown that either accuracy has to be sacrificed or the task is extremely time-consuming, if done accurately. We are proposing an approach in order to produce high-quality datasets for the task of Relation Extraction quickly. Neural models, trained to do Relation Extraction on the created datasets, achieve very good results and generalize well to other datasets. In our study, we were able to annotate 10,022 sentences for 19 relations in a reasonable amount of time, and trained a commonly used baseline model for each relation.
翻訳日:2022-04-15 13:34:56 公開日:2022-04-14
# セマンティクスセグメンテーションのための暗黙的擬似監督による教師なしドメイン適応

Unsupervised Domain Adaptation with Implicit Pseudo Supervision for Semantic Segmentation ( http://arxiv.org/abs/2204.06747v1 )

ライセンス: Link先を確認
Wanyu Xu, Zengmao Wang, Wei Bian(参考訳) 擬似ラベリング(Pseudo-labelling)は、セマンティックセグメンテーションの領域適応において一般的なテクニックである。 しかし、擬似ラベルはノイズが多く、ソースドメインとターゲットドメインの相違やトレーニングプロセスによる確認バイアスが必然的に発生する。 本稿では,対象ドメインに関する新たな補完的知識を学習するために,暗黙的に生成する擬似ラベルを用いてモデルを訓練する。 具体的には、各2つのブランチが擬似ラベルを生成して第3のブランチをトレーニングするトリラーニングアーキテクチャを提案する。 そして、2つの枝の確率分布の類似性に基づいて擬似ラベルを整列する。 擬似ラベルをより暗黙的に活用するために、異なるクラスの特徴距離を最大化し、三重項損失により同一クラスの特徴距離を最小化する。 GTA5からCityscapes、SynTHIAからCityscapesタスクへの広範な実験は、提案手法が大幅に改善されていることを示している。

Pseudo-labelling is a popular technique in unsuper-vised domain adaptation for semantic segmentation. However, pseudo labels are noisy and inevitably have confirmation bias due to the discrepancy between source and target domains and training process. In this paper, we train the model by the pseudo labels which are implicitly produced by itself to learn new complementary knowledge about target domain. Specifically, we propose a tri-learning architecture, where every two branches produce the pseudo labels to train the third one. And we align the pseudo labels based on the similarity of the probability distributions for each two branches. To further implicitly utilize the pseudo labels, we maximize the distances of features for different classes and minimize the distances for the same classes by triplet loss. Extensive experiments on GTA5 to Cityscapes and SYNTHIA to Cityscapes tasks show that the proposed method has considerable improvements.
翻訳日:2022-04-15 13:16:31 公開日:2022-04-14
# 速度制御に基づく運動モデルのオンライン校正による視覚慣性オドメトリー

Visual-Inertial Odometry with Online Calibration of Velocity-Control Based Kinematic Motion Models ( http://arxiv.org/abs/2204.06776v1 )

ライセンス: Link先を確認
Haolong Li and Joerg Stueckler(参考訳) 視覚慣性オドメトリー(VIO)は、パワーとペイロードの制約のある自律ロボットにとって重要な技術である。 本稿では,車輪付き移動ロボットの速度制御に基づく運動モデルの統合と校正を行うステレオカメラを用いたVIOの新しいアプローチを提案する。 このような動きモデルを含めることで、VIOの精度を向上させることができる。 この目的のために提案された車輪オドメータの計測を統合するために提案されたいくつかのアプローチと比較して、この方法は車輪エンコーダを必要とせず、ロボットの動きを速度制御に基づく運動モデルでモデル化できる場合に適用することができる。 我々は,ラジアル基底関数(rbf)カーネルを用いて制御コマンドと実際のロボット動作の時間遅延と偏差を補償する。 モーションモデルはVIOシステムによってオンラインで校正され、モーションコントロールと計画のための前方モデルとして使用できる。 本手法は,様々な屋内環境において得られたデータを用いて評価し,純vio法よりも改善し,オンライン校正モデルの予測精度を評価する。

Visual-inertial odometry (VIO) is an important technology for autonomous robots with power and payload constraints. In this paper, we propose a novel approach for VIO with stereo cameras which integrates and calibrates the velocity-control based kinematic motion model of wheeled mobile robots online. Including such a motion model can help to improve the accuracy of VIO. Compared to several previous approaches proposed to integrate wheel odometer measurements for this purpose, our method does not require wheel encoders and can be applied when the robot motion can be modeled with velocity-control based kinematic motion model. We use radial basis function (RBF) kernels to compensate for the time delay and deviations between control commands and actual robot motion. The motion model is calibrated online by the VIO system and can be used as a forward model for motion control and planning. We evaluate our approach with data obtained in variously sized indoor environments, demonstrate improvements over a pure VIO method, and evaluate the prediction accuracy of the online calibrated model.
翻訳日:2022-04-15 13:16:16 公開日:2022-04-14
# (参考訳) 明示的流れ下でのニューラルインプリシット進化のレベルセット理論

A Level Set Theory for Neural Implicit Evolution under Explicit Flows ( http://arxiv.org/abs/2204.07159v1 )

ライセンス: CC BY 4.0
Ishit Mehta, Manmohan Chandraker, Ravi Ramamoorthi(参考訳) 暗黙の表面をパラメータ化する座標ベースのニューラルネットワークは、幾何学の効率的な表現として登場した。 それらは事実上、関心の表面を定義するゼロレベル集合でパラメトリックレベル集合として振る舞う。 本稿では,このような暗黙の面上に三角形メッシュに対して定義される変形操作を適用可能なフレームワークを提案する。 これらの操作のいくつかは、明示的な表面上の瞬時流れを誘導するエネルギー最小化問題と見なすことができる。 この方法では、フロー場を用いて、古典的なレベル集合の理論を拡張してパラメトリックな暗黙曲面を変形する。 我々はまた、レベルセット理論への接続を形式化し、微分可能な表面の抽出とレンダリングに関する既存の手法に対する統合的な見解を導出した。 これらの手法は理論から外れており, 表面平滑化, 平均曲率フロー, 逆レンダリング, ユーザ定義による暗黙幾何学の編集など, アプリケーションに対して改善が見られた。

Coordinate-based neural networks parameterizing implicit surfaces have emerged as efficient representations of geometry. They effectively act as parametric level sets with the zero-level set defining the surface of interest. We present a framework that allows applying deformation operations defined for triangle meshes onto such implicit surfaces. Several of these operations can be viewed as energy-minimization problems that induce an instantaneous flow field on the explicit surface. Our method uses the flow field to deform parametric implicit surfaces by extending the classical theory of level sets. We also derive a consolidated view for existing methods on differentiable surface extraction and rendering, by formalizing connections to the level-set theory. We show that these methods drift from the theory and that our approach exhibits improvements for applications like surface smoothing, mean-curvature flow, inverse rendering and user-defined editing on implicit geometry.
翻訳日:2022-04-15 13:14:19 公開日:2022-04-14
# 高速ファッションのマルチモーダル宇宙:Visuelle 2.0ベンチマーク

The multi-modal universe of fast-fashion: the Visuelle 2.0 benchmark ( http://arxiv.org/abs/2204.06972v1 )

ライセンス: Link先を確認
Geri Skenderi, Christian Joppi, Matteo Denitto, Berniero Scarpa, Marco Cristani(参考訳) Visuelle 2.0は、高速ファッション企業が日常的に管理しなければならない様々な予測問題に直面するのに役立つ最初のデータセットです。 さらに,このシナリオにおいてコンピュータビジョンの利用が重要であることを示す。 visuelle 2.0には6シーズン/5355種類の衣料品が収められており、イタリアで有名な会社であり、国内各地に数百の店舗がある。 特に,特定の予測問題,すなわち短期観察型新製品販売予測(so-fore)に注目する。 so-foreは、季節が始まって、一連の新製品がそれぞれの店舗の棚にあると仮定している。 目標は、過去の統計が入手できないため、短い期間(2週間)を想定して、特定のホライズンズの売り上げを予測することである。 成功させるためには、SO-foreアプローチはこの短い過去を捉え、他のモダリティや外生データを利用する必要がある。 これらの目的のために、visuelle 2.0はアイテムショップレベルの分散データと各衣料品のマルチモーダル情報を備えており、コンピュータビジョンのアプローチが有効になっている。 私たちが提供する主なメッセージは、ディープネットワークによる画像データの利用は、時系列を長期予測シナリオで使用する際のパフォーマンスを向上し、WAPEを8.2%改善し、MAEを7.7%改善する、ということです。 データセットは、https://humaticslab. github.io/forecastin g/visuelle。

We present Visuelle 2.0, the first dataset useful for facing diverse prediction problems that a fast-fashion company has to manage routinely. Furthermore, we demonstrate how the use of computer vision is substantial in this scenario. Visuelle 2.0 contains data for 6 seasons / 5355 clothing products of Nuna Lie, a famous Italian company with hundreds of shops located in different areas within the country. In particular, we focus on a specific prediction problem, namely short-observation new product sale forecasting (SO-fore). SO-fore assumes that the season has started and a set of new products is on the shelves of the different stores. The goal is to forecast the sales for a particular horizon, given a short, available past (few weeks), since no earlier statistics are available. To be successful, SO-fore approaches should capture this short past and exploit other modalities or exogenous data. To these aims, Visuelle 2.0 is equipped with disaggregated data at the item-shop level and multi-modal information for each clothing item, allowing computer vision approaches to come into play. The main message that we deliver is that the use of image data with deep networks boosts performances obtained when using the time series in long-term forecasting scenarios, ameliorating the WAPE by 8.2% and the MAE by 7.7%. The dataset is available at: https://humaticslab. github.io/forecastin g/visuelle.
翻訳日:2022-04-15 13:11:11 公開日:2022-04-14
# Q-TART: 対向ロバストネスとトランスファビリティの迅速なトレーニング

Q-TART: Quickly Training for Adversarial Robustness and in-Transferability ( http://arxiv.org/abs/2204.07024v1 )

ライセンス: Link先を確認
Madan Ravi Ganesh, Salimeh Yasaei Sekeh, and Jason J. Corso(参考訳) raw deep neural network (dnn)のパフォーマンスは不十分である。現実世界の設定では、計算負荷、トレーニング効率、および敵のセキュリティは、ほぼあるいはそれ以上に重要である。 本稿では,性能,効率,ロバスト性を両立させるアルゴリズムとして,Q-TART,Quickly Train for Adversarial Robustness,In-Transf erabilityを提案する。 Q-TARTは、サンプルがノイズに強い影響を受けやすいという直感に従って、DNNが学んだ決定境界に強く影響を与え、それによってその性能と敵の感受性が低下する。 このようなサンプルを同定・除去することにより、トレーニングデータのサブセットのみを使用しながら、性能の向上と対角的堅牢性を示す。 実験を通じて、ImageNetを含む複数のデータセットとDNNの組み合わせにおけるQ-TARTのハイパフォーマンスを強調し、Q-TARTの相補的な振る舞いと、既存の敵のトレーニングアプローチを併用して、最大17.9%のトレーニング時間を使用しながら、ロバストネスを1.3%以上向上する方法について考察した。

Raw deep neural network (DNN) performance is not enough; in real-world settings, computational load, training efficiency and adversarial security are just as or even more important. We propose to simultaneously tackle Performance, Efficiency, and Robustness, using our proposed algorithm Q-TART, Quickly Train for Adversarial Robustness and in-Transferability. Q-TART follows the intuition that samples highly susceptible to noise strongly affect the decision boundaries learned by DNNs, which in turn degrades their performance and adversarial susceptibility. By identifying and removing such samples, we demonstrate improved performance and adversarial robustness while using only a subset of the training data. Through our experiments we highlight Q-TART's high performance across multiple Dataset-DNN combinations, including ImageNet, and provide insights into the complementary behavior of Q-TART alongside existing adversarial training approaches to increase robustness by over 1.3% while using up to 17.9% less training time.
翻訳日:2022-04-15 13:10:47 公開日:2022-04-14
# SemiMultiPose: 半教師付きマルチアニマルポーズ推定フレームワーク

SemiMultiPose: A Semi-supervised Multi-animal Pose Estimation Framework ( http://arxiv.org/abs/2204.07072v1 )

ライセンス: Link先を確認
Ari Blau, Christoph Gebhardt, Andres Bendesky, Liam Paninski, and Anqi Wu(参考訳) マルチアニマルポーズ推定は、神経科学と神経倫理学における動物の社会的行動を研究するために不可欠である。 マルチアニマル推定と最先端性能を実現するための高度なアプローチが提案されている。 しかし、実際のアプリケーションはラベル付きフレームよりもラベル付きフレームが指数関数的に多いにもかかわらず、トレーニング中にラベル付きデータを利用することは滅多にない。 多数の画像やビデオに高度なアノテーションを手動で追加することは、コストと労力がかかります。 これらの欠陥を考慮し,動作ビデオの未ラベルフレームに広く浸透する豊富な構造を活用し,疎ラベル問題に不可欠な,新しい半教師付きポーズ推定アーキテクチャを提案する。 得られたアルゴリズムは、最先端のベースラインと比較して、3つの動物実験において優れたマルチアニマルポーズ推定結果を提供する。

Multi-animal pose estimation is essential for studying animals' social behaviors in neuroscience and neuroethology. Advanced approaches have been proposed to support multi-animal estimation and achieve state-of-the-art performance. However, these models rarely exploit unlabeled data during training even though real world applications have exponentially more unlabeled frames than labeled frames. Manually adding dense annotations for a large number of images or videos is costly and labor-intensive, especially for multiple instances. Given these deficiencies, we propose a novel semi-supervised architecture for multi-animal pose estimation, leveraging the abundant structures pervasive in unlabeled frames in behavior videos to enhance training, which is critical for sparsely-labeled problems. The resulting algorithm will provide superior multi-animal pose estimation results on three animal experiments compared to the state-of-the-art baseline and exhibits more predictive power in sparsely-labeled data regimes.
翻訳日:2022-04-15 13:10:26 公開日:2022-04-14
# 高分解能画像合成のためのany- resolution training

Any-resolution Training for High-resolution Image Synthesis ( http://arxiv.org/abs/2204.07156v1 )

ライセンス: Link先を確認
Lucy Chai, Michael Gharbi, Eli Shechtman, Phillip Isola, Richard Zhang(参考訳) 生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作する。 高解像度の詳細が切り離され、低解像度の画像は完全に破棄されるため、重要な監視が失われる。 すべてのピクセルが重要であり、ネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。 高い解像度の処理はコストがかかり、現在のアーキテクチャでは固定解像度のデータしか処理できない。 我々は,無作為なスケールでパッチをサンプリングし,可変出力解像度で新しいジェネレータを訓練するプロセスである継続的スケールトレーニングを導入する。 まず、ターゲットスケールでジェネレータを条件付けすることで、モデルにレイヤーを追加することなく、従来よりも高解像度の画像を生成することができる。 第二に、連続的な座標を条件付けすることで、一貫したグローバルなレイアウトに従っているパッチをサンプリングすることができます。 制御されたffhq実験により,マルチレゾリューショントレーニングデータを離散的マルチスケールアプローチよりもうまく活用し,fidスコアを向上し,高周波数詳細をクリーンにすることを示す。 また、教会、山、鳥などの自然画像ドメインをトレーニングし、コヒーレントなグローバルレイアウトとリアルなローカルディテールの両方で任意のスケール合成を示し、実験では2k解像度を超えています。 私たちのプロジェクトページは、https://chail.github .io/anyres-gan/で閲覧できます。

Generative models operate at fixed resolution, even though natural images come in a variety of sizes. As high-resolution details are downsampled away, and low-resolution images are discarded altogether, precious supervision is lost. We argue that every pixel matters and create datasets with variable-size images, collected at their native resolutions. Taking advantage of this data is challenging; high-resolution processing is costly, and current architectures can only process fixed-resolution data. We introduce continuous-scale training, a process that samples patches at random scales to train a new generator with variable output resolutions. First, conditioning the generator on a target scale allows us to generate higher resolutions images than previously possible, without adding layers to the model. Second, by conditioning on continuous coordinates, we can sample patches that still obey a consistent global layout, which also allows for scalable training at higher resolutions. Controlled FFHQ experiments show our method takes advantage of the multi-resolution training data better than discrete multi-scale approaches, achieving better FID scores and cleaner high-frequency details. We also train on other natural image domains including churches, mountains, and birds, and demonstrate arbitrary scale synthesis with both coherent global layouts and realistic local details, going beyond 2K resolution in our experiments. Our project page is available at: https://chail.github .io/anyres-gan/.
翻訳日:2022-04-15 13:10:11 公開日:2022-04-14
# ダークウェブの言語に新しい光を放つ

Shedding New Light on the Language of the Dark Web ( http://arxiv.org/abs/2204.06885v1 )

ライセンス: Link先を確認
Youngjin Jin, Eugene Jang, Yongjae Lee, Seungwon Shin, Jin-Woo Chung(参考訳) 隠れた性質とダークウェブのアクセシビリティが制限されており、このドメインでの公開データセットの欠如と相まって、言語特性などの固有の特性の研究は困難である。 ダークウェブドメインのテキスト分類に関する以前の研究は、ダークウェブとサーフェスウェブの言語的違いのため、ディープ・ニューラル・モデルの使用は効果がない可能性を示唆している。 しかし、ダークウェブの言語的特徴を明らかにするための作業はあまり行われていない。 本稿では,テキストベースのDark Web分析に適した10000のWebドキュメントからなる,公開可能なDark WebデータセットであるCoDAを紹介する。 我々は,CoDAを活用してダークウェブの言語学的解析を行い,ダークウェブとサーフェスウェブのテキスト的差異について検討する。 また,ダークウェブページ分類の各種手法の性能評価を行った。 最後に、CoDAを既存のパブリックなDark Webデータセットと比較し、さまざまなユースケースに対するそれらの適合性を評価する。

The hidden nature and the limited accessibility of the Dark Web, combined with the lack of public datasets in this domain, make it difficult to study its inherent characteristics such as linguistic properties. Previous works on text classification of Dark Web domain have suggested that the use of deep neural models may be ineffective, potentially due to the linguistic differences between the Dark and Surface Webs. However, not much work has been done to uncover the linguistic characteristics of the Dark Web. This paper introduces CoDA, a publicly available Dark Web dataset consisting of 10000 web documents tailored towards text-based Dark Web analysis. By leveraging CoDA, we conduct a thorough linguistic analysis of the Dark Web and examine the textual differences between the Dark Web and the Surface Web. We also assess the performance of various methods of Dark Web page classification. Finally, we compare CoDA with an existing public Dark Web dataset and evaluate their suitability for various use cases.
翻訳日:2022-04-15 13:09:47 公開日:2022-04-14
# HCFL: 大規模IoTネットワークにおけるコミュニケーション効率の高いフェデレーション学習のための高圧縮アプローチ

HCFL: A High Compression Approach for Communication-Effici ent Federated Learning in Very Large Scale IoT Networks ( http://arxiv.org/abs/2204.06760v1 )

ライセンス: Link先を確認
Minh-Duong Nguyen, Sang-Min Lee, Quoc-Viet Pham, Dinh Thai Hoang, Diep N. Nguyen, Won-Joo Hwang(参考訳) Federated Learning(FL)は、IoT(Internet-of-Thin gs)デバイスが、処理のために生データを集中ノードに送信することなく、コラボレーティブモデルを学ぶことを可能にする、新たな人工知能の概念である。 多数のアドバンテージにもかかわらず、IoTデバイスの低コンピューティングリソースとモデルパラメータを交換するための高い通信コストは、巨大なIoTネットワークにおけるFLの応用を極めて限定している。 本研究では,大規模IoTネットワークのための高速圧縮フェデレーション学習(HCFL)と呼ばれるFLのための新しい圧縮スキームを開発する。 HCFLは、構造やハイパーパラメータを変更することなく、FLプロセスのデータ負荷を削減することができる。 このように、通信コストを大幅に削減できるだけでなく、低計算リソースのIoTデバイスにも、集中的な学習プロセスをより適応させることができる。 さらに,IoTデバイス数とFLモデルの収束レベルとの関係について検討し,FLプロセスの品質をよく評価する。 我々はシミュレーションと数学的解析の両方においてhcflスキームを実証する。 提案した理論研究は,決定された構成が満たされた場合,FLプロセスが良好な性能を発揮することを示すため,満足度を最小限に抑えることができる。 したがって、HCFLは、多数のIoTデバイスを持つ任意のFL統合ネットワークに適用可能であることを示す。

Federated learning (FL) is a new artificial intelligence concept that enables Internet-of-Things (IoT) devices to learn a collaborative model without sending the raw data to centralized nodes for processing. Despite numerous advantages, low computing resources at IoT devices and high communication costs for exchanging model parameters make applications of FL in massive IoT networks very limited. In this work, we develop a novel compression scheme for FL, called high-compression federated learning (HCFL), for very large scale IoT networks. HCFL can reduce the data load for FL processes without changing their structure and hyperparameters. In this way, we not only can significantly reduce communication costs, but also make intensive learning processes more adaptable on low-computing resource IoT devices. Furthermore, we investigate a relationship between the number of IoT devices and the convergence level of the FL model and thereby better assess the quality of the FL process. We demonstrate our HCFL scheme in both simulations and mathematical analyses. Our proposed theoretical research can be used as a minimum level of satisfaction, proving that the FL process can achieve good performance when a determined configuration is met. Therefore, we show that HCFL is applicable in any FL-integrated networks with numerous IoT devices.
翻訳日:2022-04-15 13:09:31 公開日:2022-04-14
# EEG-ITNet: モータ画像分類のための説明可能なインセプション時間畳み込みネットワーク

EEG-ITNet: An Explainable Inception Temporal Convolutional Network for Motor Imagery Classification ( http://arxiv.org/abs/2204.06947v1 )

ライセンス: Link先を確認
Abbas Salami, Javier Andreu-Perez and Helge Gillmeister(参考訳) 近年,脳-コンピュータインタフェース(BCI)分野における脳波信号解析において,ニューラルネットワーク,特に深層アーキテクチャが注目されている。 この進行中の研究領域では、エンドツーエンドモデルは信号変換事前分類を必要とする従来のアプローチよりも好まれる。 専門家からの事前情報や手作業による特徴の抽出の必要性を排除できる。 しかし、すでにいくつかの深層学習アルゴリズムが文献に提案されており、運動運動やメンタルタスクの分類の精度が高いが、しばしば解釈可能性の欠如に直面するため、神経科学コミュニティからはあまり好まれていない。 この問題の背景にある理由は、多数のパラメータと、小さなが無関係な識別的特徴をキャプチャするディープニューラルネットワークの感度である。 我々は、EEG-ITNetと呼ばれるエンドツーエンドのディープラーニングアーキテクチャと、ネットワーク学習パターンを可視化するより理解しやすい方法を提案する。 モデルでは、インセプションモジュールと拡張を伴う因果畳み込みを用いて、EEG-InceptionやEEG-TCNetといった既存のエンド・ツー・エンドアーキテクチャに比べて、(トレーニング可能なパラメータの数の観点から)複雑さの少ないマルチチャネル脳波信号からスペクトル、空間、時間情報を抽出することができる。 BCIコンペティションIVとOpenBMIモーター画像データセットのデータセット2aの徹底的な評価により、EEG-ITNetは、競合他社と比較して統計的に有意な異なるシナリオにおける分類精度を最大5.9倍改善した。 また,神経科学的な視点からネットワークイラストの妥当性を包括的に説明し,支援する。 私たちはまた、https://github.com/A bbasSalami/EEG-ITNet でもコードを公開しました。

In recent years, neural networks and especially deep architectures have received substantial attention for EEG signal analysis in the field of brain-computer interfaces (BCIs). In this ongoing research area, the end-to-end models are more favoured than traditional approaches requiring signal transformation pre-classification. They can eliminate the need for prior information from experts and the extraction of handcrafted features. However, although several deep learning algorithms have been already proposed in the literature, achieving high accuracies for classifying motor movements or mental tasks, they often face a lack of interpretability and therefore are not quite favoured by the neuroscience community. The reasons behind this issue can be the high number of parameters and the sensitivity of deep neural networks to capture tiny yet unrelated discriminative features. We propose an end-to-end deep learning architecture called EEG-ITNet and a more comprehensible method to visualise the network learned patterns. Using inception modules and causal convolutions with dilation, our model can extract rich spectral, spatial, and temporal information from multi-channel EEG signals with less complexity (in terms of the number of trainable parameters) than other existing end-to-end architectures, such as EEG-Inception and EEG-TCNet. By an exhaustive evaluation on dataset 2a from BCI competition IV and OpenBMI motor imagery dataset, EEG-ITNet shows up to 5.9\% improvement in the classification accuracy in different scenarios with statistical significance compared to its competitors. We also comprehensively explain and support the validity of network illustration from a neuroscientific perspective. We have also made our code open at https://github.com/A bbasSalami/EEG-ITNet
翻訳日:2022-04-15 13:08:05 公開日:2022-04-14
# 並列微分可能シミュレーションによる政策学習の高速化

Accelerated Policy Learning with Parallel Differentiable Simulation ( http://arxiv.org/abs/2204.07137v1 )

ライセンス: Link先を確認
Jie Xu, Viktor Makoviychuk, Yashraj Narang, Fabio Ramos, Wojciech Matusik, Animesh Garg, Miles Macklin(参考訳) 深層強化学習は複雑な制御ポリシーを生成するが、効果的に働くために大量のトレーニングデータを必要とする。 最近の研究は、微分可能シミュレータを利用してこの問題に対処しようとしている。 しかしながら、局所的ミニマや爆発・爆発といった固有の問題は、古典的rlベンチマークにおけるヒューマノイド運動のような複雑な接触-リッチダイナミクスを伴うタスクの制御に一般的に適用されない。 本研究では,非滑らか性が存在する場合でも,シミュレーション勾配を効果的に活用できる高性能微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。 学習アルゴリズムは,局所的ミニマ問題に対して,スムースな批判関数による軽減,縮小学習ウィンドウによる勾配の消失・爆発の回避,多数の物理環境の並列実行を可能にする。 本手法は従来のRL制御タスクにおいて評価され,サンプル効率と壁面時間において,最先端のRLと微分可能なシミュレーションベースアルゴリズムよりも大幅に向上した。 さらに,本手法のスケーラビリティを,筋運動の高次元問題に適用し,高い動作空間を有する高次元問題に適用し,最適性能のRLアルゴリズムよりも17倍以上のトレーニング時間を短縮できることを示す。

Deep reinforcement learning can generate complex control policies, but requires large amounts of training data to work effectively. Recent work has attempted to address this issue by leveraging differentiable simulators. However, inherent problems such as local minima and exploding/vanishing numerical gradients prevent these methods from being generally applied to control tasks with complex contact-rich dynamics, such as humanoid locomotion in classical RL benchmarks. In this work we present a high-performance differentiable simulator and a new policy learning algorithm (SHAC) that can effectively leverage simulation gradients, even in the presence of non-smoothness. Our learning algorithm alleviates problems with local minima through a smooth critic function, avoids vanishing/exploding gradients through a truncated learning window, and allows many physical environments to be run in parallel. We evaluate our method on classical RL control tasks, and show substantial improvements in sample efficiency and wall-clock time over state-of-the-art RL and differentiable simulation-based algorithms. In addition, we demonstrate the scalability of our method by applying it to the challenging high-dimensional problem of muscle-actuated locomotion with a large action space, achieving a greater than 17x reduction in training time over the best-performing established RL algorithm.
翻訳日:2022-04-15 13:07:35 公開日:2022-04-14
# 凸円錐予測と問題最適化のための勾配向上

Gradient boosting for convex cone predict and optimize problems ( http://arxiv.org/abs/2204.06895v1 )

ライセンス: Link先を確認
Andrew Butler and Roy H. Kwon(参考訳) 工学と統計学における多くの問題は予測予測と決定に基づく最適化の両方を含む。 従来、予測モデルは最終決定に基づく最適化問題から独立して最適化される。 対照的に、‘smart, predict then optimize’(spo)フレームワークは予測モデルを最適化し、最終的な下流決定損失を明示的に最小化する。 本稿では,決定後悔を最小限に抑えるため,予測モデルの学習のための勾配向上アルゴリズムであるdboostを提案する。 このdboostフレームワークは凸2次錐プログラムとしてキャスト可能な凸最適化プログラムをサポートし、独自の固定点写像の暗黙的な微分により勾配向上を行う。 我々の知る限り、dboostフレームワークは、問題を予測し最適化するためのグラデーション強化の最初の汎用的な実装である。 最先端のSPO法と比較した実験結果から,dboostはサンプル外決定の後悔をさらに軽減できることが示された。

Many problems in engineering and statistics involve both predictive forecasting and decision-based optimization. Traditionally, predictive models are optimized independently from the final decision-based optimization problem. In contrast, a `smart, predict then optimize' (SPO) framework optimizes prediction models to explicitly minimize the final downstream decision loss. In this paper we present dboost, a gradient boosting algorithm for training prediction model ensembles to minimize decision regret. The dboost framework supports any convex optimization program that can be cast as convex quadratic cone program and gradient boosting is performed by implicit differentiation of a custom fixed-point mapping. To our knowledge, the dboost framework is the first general purpose implementation of gradient boosting to predict and optimize problems. Experimental results comparing with state-of-the-art SPO methods show that dboost can further reduce out-of-sample decision regret.
翻訳日:2022-04-15 13:07:12 公開日:2022-04-14
# MNEMON発見:ノード埋め込みの思い出を復活させる

Finding MNEMON: Reviving Memories of Node Embeddings ( http://arxiv.org/abs/2204.06963v1 )

ライセンス: Link先を確認
Yun Shen and Yufei Han and Zhikun Zhang and Min Chen and Ting Yu and Michael Backes and Yang Zhang and Gianluca Stringhini(参考訳) グラフを公転するこれまでのセキュリティ研究は、グラフの匿名化や、グラフニューラルネットワークのセキュリティとプライバシの問題を理解することに集中してきた。 グラフ埋め込みモデル(ノード埋め込みなど)からアウトプットを複雑な下流機械学習パイプラインに統合する、プライバシリスクを理解するためにはほとんど注意が払われていない。 本稿では,このギャップを埋め,グラフノードの埋め込みに保存される暗黙的なグラフ構造情報を利用する,新しいモデルに依存しないグラフ回復攻撃を提案する。 敵は、ノード埋め込みモデルと相互作用することなく、元のグラフのノード埋め込みマトリクスにアクセスするだけで、適切な精度でエッジを回復できることを示す。 広範囲な実験を通じてグラフ回復攻撃の有効性と適用性を示す。

Previous security research efforts orbiting around graphs have been exclusively focusing on either (de-)anonymizing the graphs or understanding the security and privacy issues of graph neural networks. Little attention has been paid to understand the privacy risks of integrating the output from graph embedding models (e.g., node embeddings) with complex downstream machine learning pipelines. In this paper, we fill this gap and propose a novel model-agnostic graph recovery attack that exploits the implicit graph structural information preserved in the embeddings of graph nodes. We show that an adversary can recover edges with decent accuracy by only gaining access to the node embedding matrix of the original graph without interactions with the node embedding models. We demonstrate the effectiveness and applicability of our graph recovery attack through extensive experiments.
翻訳日:2022-04-15 13:06:57 公開日:2022-04-14
# 医学における因果木法による最適動的治療規則の学習

Learning Optimal Dynamic Treatment Regimes Using Causal Tree Methods in Medicine ( http://arxiv.org/abs/2204.07124v1 )

ライセンス: Link先を確認
Theresa Bl\"umlein, Joel Persson, Stefan Feuerriegel(参考訳) 動的治療レジーム(DTR)は、患者の不均一性を考慮して患者に対して順次治療決定を調整するために医療で使用される。 しかし、最適なdtrを学習するための一般的な方法は、典型的には結果予測に基づいており、治療効果の推定ではなく、現代の電子健康記録から患者データに制限のある線形モデルを使う。 これらの欠点に対処するために、複雑な患者データを効果的に扱う最適なDTRを学習するための2つの新しい方法を開発した。 DTR-CTとDTR-CFと呼ぶ。 本手法は,非線形関係を学習し,時間的変化の制御を行う因果樹法,特に因果樹法および因果樹法を用いて,不均一な処理効果をデータ駆動で推定し,両立し,説明可能である。 我々の知る限りでは、最適なDTRの学習に因果木法を適用した最初の論文である。 提案手法を合成データを用いて評価し,それらを集中治療室からの実世界データに適用する。 本手法は,累積的後悔と最適決定率という観点で,最先端のベースラインをかなり上回っている。 本研究は,電子カルテからの治療法の推奨を改善し,パーソナライズされた医療に直接的な関連性をもたらす。

Dynamic treatment regimes (DTRs) are used in medicine to tailor sequential treatment decisions to patients by considering patient heterogeneity. Common methods for learning optimal DTRs, however, have shortcomings: they are typically based on outcome prediction and not treatment effect estimation, or they use linear models that are restrictive for patient data from modern electronic health records. To address these shortcomings, we develop two novel methods for learning optimal DTRs that effectively handle complex patient data. We call our methods DTR-CT and DTR-CF. Our methods are based on a data-driven estimation of heterogeneous treatment effects using causal tree methods, specifically causal trees and causal forests, that learn non-linear relationships, control for time-varying confounding, are doubly robust, and explainable. To the best of our knowledge, our paper is the first that adapts causal tree methods for learning optimal DTRs. We evaluate our proposed methods using synthetic data and then apply them to real-world data from intensive care units. Our methods outperform state-of-the-art baselines in terms of cumulative regret and percentage of optimal decisions by a considerable margin. Our work improves treatment recommendations from electronic health record and is thus of direct relevance for personalized medicine.
翻訳日:2022-04-15 13:06:43 公開日:2022-04-14
# 写実的かつ編集可能な超音波画像合成のためのスケッチガイドおよびプログレッシブ成長gan

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis ( http://arxiv.org/abs/2204.06929v1 )

ライセンス: Link先を確認
Jiamin Liang, Xin Yang, Yuhao Huang, Haoming Li, Shuangchi He, Xindi Hu, Zejian Chen, Wufeng Xue, Jun Cheng, Dong Ni(参考訳) 超音波(US)画像は臨床診断における解剖学的構造検査に広く用いられている。 画像解析のための新しいソノグラフと深層学習に基づくアルゴリズムの訓練は通常、大量のデータを必要とする。 しかし,大規模us画像データの取得とラベリングは,特に頻度の低い疾患においては容易な作業ではない。 現実的なアメリカの画像合成は、この問題をかなり緩和することができる。 本稿では,gan(generative adversarial network)ベースの画像合成フレームワークを提案する。 私たちの主な貢献は 1) リアルなBモードUS画像を高解像度でカスタマイズしたテクスチャ編集機能で合成できる最初の作品を紹介する。 2)生成画像の構造的詳細性を高めるため,条件付きGANに補助スケッチガイダンスを導入することを提案する。 エッジスケッチをオブジェクトマスクに重ね合わせて,複合マスクをネットワーク入力として使用する。 3)高解像度のUS画像を生成するために,低解像度の画像から徐々に高解像度の画像を生成するプログレッシブトレーニング戦略を採用する。 さらに、生成画像と実画像の高次特徴の差を最小限に抑えるために、特徴損失を提案し、生成画像の品質をさらに向上させる。 4) 提案した米国画像合成法は非常に普遍的であり, 本研究で試験した3例(肺, 股関節, 卵巣)に加えて, その他の解剖学的構造の画像にも一般化可能である。 5) 提案手法を検証するために, 米国の3つの大規模画像データセットに関する広範囲な実験を行った。 実際のUS画像の合成において, アブレーション研究, テクスチャ編集, ユーザ研究, セグメンテーションテストが有効であることを示す。

Ultrasound (US) imaging is widely used for anatomical structure inspection in clinical diagnosis. The training of new sonographers and deep learning based algorithms for US image analysis usually requires a large amount of data. However, obtaining and labeling large-scale US imaging data are not easy tasks, especially for diseases with low incidence. Realistic US image synthesis can alleviate this problem to a great extent. In this paper, we propose a generative adversarial network (GAN) based image synthesis framework. Our main contributions include: 1) we present the first work that can synthesize realistic B-mode US images with high-resolution and customized texture editing features; 2) to enhance structural details of generated images, we propose to introduce auxiliary sketch guidance into a conditional GAN. We superpose the edge sketch onto the object mask and use the composite mask as the network input; 3) to generate high-resolution US images, we adopt a progressive training strategy to gradually generate high-resolution images from low-resolution images. In addition, a feature loss is proposed to minimize the difference of high-level features between the generated and real images, which further improves the quality of generated images; 4) the proposed US image synthesis method is quite universal and can also be generalized to the US images of other anatomical structures besides the three ones tested in our study (lung, hip joint, and ovary); 5) extensive experiments on three large US image datasets are conducted to validate our method. Ablation studies, customized texture editing, user studies, and segmentation tests demonstrate promising results of our method in synthesizing realistic US images.
翻訳日:2022-04-15 13:06:22 公開日:2022-04-14
# 高次元におけるランダム特徴量濃度

Concentration of Random Feature Matrices in High-Dimensions ( http://arxiv.org/abs/2204.06935v1 )

ライセンス: Link先を確認
Zhijun Chen, Hayden Schaeffer, Rachel Ward(参考訳) ランダム特徴行列のスペクトルは、ランダム特徴回帰問題で使われる線形システムの条件付けに関する重要な情報を提供し、したがってランダム特徴モデルの一貫性と一般化に結びついている。 ランダム特徴行列は、データと重みの2つの入力変数に依存する非対称な非対称な非線形行列であり、特徴付けが困難である。 2つの入力変数の2つの設定について検討し、どちらも確率変数か確率変数で、もう1つは分離が良く、つまり点間の距離は最小である。 次元, 複雑性比, サンプリング分散の条件により, これらの行列の特異値は, 期待値の近傍に集中し, 確率の高い近傍に集中していることが示される。 特に、次元はランダムな重みの数の対数やデータポイントの数にのみ依存するため、我々の複雑性境界は多くの実用的な設定において適度な次元でも達成できる。 理論的結果は数値実験によって検証される。

The spectra of random feature matrices provide essential information on the conditioning of the linear system used in random feature regression problems and are thus connected to the consistency and generalization of random feature models. Random feature matrices are asymmetric rectangular nonlinear matrices depending on two input variables, the data and the weights, which can make their characterization challenging. We consider two settings for the two input variables, either both are random variables or one is a random variable and the other is well-separated, i.e. there is a minimum distance between points. With conditions on the dimension, the complexity ratio, and the sampling variance, we show that the singular values of these matrices concentrate near their full expectation and near one with high-probability. In particular, since the dimension depends only on the logarithm of the number of random weights or the number of data points, our complexity bounds can be achieved even in moderate dimensions for many practical setting. The theoretical results are verified with numerical experiments.
翻訳日:2022-04-15 13:04:14 公開日:2022-04-14
# 環境音表現から敵攻撃に対する2次元CNNモデルのロバスト性へ

From Environmental Sound Representation to Robustness of 2D CNN Models Against Adversarial Attacks ( http://arxiv.org/abs/2204.07018v1 )

ライセンス: Link先を確認
Mohammad Esmaeilpour and Patrick Cardinal and Alessandro Lameiras Koerich(参考訳) 本稿では,被害者の残留畳み込みニューラルネットワーク,resnet-18の認識性能と敵対的攻撃性に対する,異なる標準環境音表現(スペクトログラム)の影響について検討する。 他の複雑なアーキテクチャよりもフロントエンドの分類に注目する主な動機は、認識精度とトレーニングパラメータの総数をバランスさせることです。 ここでは,より情報的なメル周波数ケプストラム係数(mfcc),短時間フーリエ変換(stft),離散ウェーブレット変換(dwt)の生成に必要な様々な設定の影響を測定する。 この測定は、対向ロバスト性に対する分類性能の比較を含む。 本研究では,6つのベンチマーク攻撃アルゴリズムに対する認識精度とモデルロバスト性の関係を,敵が割り当てる平均予算と攻撃コストのバランスについて示す。 さらに,DWTスペクトルを用いたResNet-18モデルでは高い認識精度が得られたが,このモデルに対する攻撃は,他の2次元表現よりも比較的コストがかかることを示した。 また、ResNet-34、ResNet-56、AlexNet、GoogLeNet、SB-CNN、LSTMベースのさまざまな畳み込みニューラルネットワークアーキテクチャについて、いくつかの結果を報告する。

This paper investigates the impact of different standard environmental sound representations (spectrograms) on the recognition performance and adversarial attack robustness of a victim residual convolutional neural network, namely ResNet-18. Our main motivation for focusing on such a front-end classifier rather than other complex architectures is balancing recognition accuracy and the total number of training parameters. Herein, we measure the impact of different settings required for generating more informative Mel-frequency cepstral coefficient (MFCC), short-time Fourier transform (STFT), and discrete wavelet transform (DWT) representations on our front-end model. This measurement involves comparing the classification performance over the adversarial robustness. We demonstrate an inverse relationship between recognition accuracy and model robustness against six benchmarking attack algorithms on the balance of average budgets allocated by the adversary and the attack cost. Moreover, our experimental results have shown that while the ResNet-18 model trained on DWT spectrograms achieves a high recognition accuracy, attacking this model is relatively more costly for the adversary than other 2D representations. We also report some results on different convolutional neural network architectures such as ResNet-34, ResNet-56, AlexNet, and GoogLeNet, SB-CNN, and LSTM-based.
翻訳日:2022-04-15 13:03:57 公開日:2022-04-14
# より一般化するための学習: ニューラルネットワーク翻訳のための連続セマンティック拡張

Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2204.06812v1 )

ライセンス: Link先を確認
Xiangpeng Wei, Heng Yu, Yue Hu, Rongxiang Weng, Weihua Luo, Jun Xie, Rong Jin(参考訳) 教師付きニューラルネットワーク翻訳(NMT)の主な課題は、一連の並列文ペアからソース入力に条件付けられたターゲット文を生成することを学び、その結果、目に見えないインスタンスに一般化可能なモデルを生成することである。 しかし,モデルの一般化性能は,訓練で使用する並列データの量に大きく影響されていることが一般的である。 データ拡張はトレーニングデータの強化に広く用いられているが、離散的な操作を行う従来の方法は多様で忠実なトレーニングサンプルを生成することができない。 本稿では,リテラル表現の適切な変種を同じ意味でカバー可能な隣接意味領域で各トレーニングインスタンスを補完する,連続的意味拡張(csanmt)と呼ばれる新しいデータ拡張パラダイムを提案する。 我々は、WMT14 English-{German, French}, NIST Chinese- English and multiple low-resource IWSLT translation taskなど、多種多様な言語ペアを含むリッチリソースおよび低リソース設定について広範な実験を行った。 得られた実証的証拠は、CsaNMTが既存の拡張技術の中で新しいレベルのパフォーマンスを設定し、最先端の技術を大きなマージンで改善していることを示している。 コアコードは appendix e に含まれている。

The principal task in supervised neural machine translation (NMT) is to learn to generate target sentences conditioned on the source inputs from a set of parallel sentence pairs, and thus produce a model capable of generalizing to unseen instances. However, it is commonly observed that the generalization performance of the model is highly influenced by the amount of parallel data used in training. Although data augmentation is widely used to enrich the training data, conventional methods with discrete manipulations fail to generate diverse and faithful training samples. In this paper, we present a novel data augmentation paradigm termed Continuous Semantic Augmentation (CsaNMT), which augments each training instance with an adjacency semantic region that could cover adequate variants of literal expression under the same meaning. We conduct extensive experiments on both rich-resource and low-resource settings involving various language pairs, including WMT14 English-{German,French}, NIST Chinese-English and multiple low-resource IWSLT translation tasks. The provided empirical evidences show that CsaNMT sets a new level of performance among existing augmentation techniques, improving on the state-of-the-art by a large margin. The core codes are contained in Appendix E.
翻訳日:2022-04-15 13:03:17 公開日:2022-04-14
# ジェンダーのデバイアスが内部モデル表現にどのように影響するか、なぜ重要か

How Gender Debiasing Affects Internal Model Representations, and Why It Matters ( http://arxiv.org/abs/2204.06827v1 )

ライセンス: Link先を確認
Hadas Orgad, Seraphina Goldfarb-Tarrant, Yonatan Belinkov(参考訳) nlpにおけるジェンダーバイアスの一般的な研究は、下流タスクにおけるモデルパフォーマンスによって測定される外部バイアスか、モデルの内部表現に見られる内在バイアスに焦点をあてている。 しかし、外因性バイアスと内因性バイアスの関係は比較的不明である。 本研究は, 下流の微調整時にモデルをデバイアスし, 外部バイアスを低減し, 情報理論的な探索によりバイアス抽出性として運用される内在バイアスに対する効果を計測する。 2つのタスクと複数のバイアスメトリックの実験を通して、我々の内在バイアスメトリックは、標準のWEATメトリックの(文脈適応)よりもデバイアスの指標であり、表面的デバイアスのケースも露呈できることを示した。 当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。 私たちのコードは公開されます。

Common studies of gender bias in NLP focus either on extrinsic bias measured by model performance on a downstream task or on intrinsic bias found in models' internal representations. However, the relationship between extrinsic and intrinsic bias is relatively unknown. In this work, we illuminate this relationship by measuring both quantities together: we debias a model during downstream fine-tuning, which reduces extrinsic bias, and measure the effect on intrinsic bias, which is operationalized as bias extractability with information-theoreti c probing. Through experiments on two tasks and multiple bias metrics, we show that our intrinsic bias metric is a better indicator of debiasing than (a contextual adaptation of) the standard WEAT metric, and can also expose cases of superficial debiasing. Our framework provides a comprehensive perspective on bias in NLP models, which can be applied to deploy NLP systems in a more informed manner. Our code will be made publicly available.
翻訳日:2022-04-15 13:02:54 公開日:2022-04-14
# BERTは本当に賛成ですか? 構文課題における語彙依存の微粒化解析

Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on a Syntactic Task ( http://arxiv.org/abs/2204.06889v1 )

ライセンス: Link先を確認
Karim Lasri, Alessandro Lenci, Thierry Poibeau(参考訳) トランスフォーマーに基づくニューラル言語モデルでは,様々なタスクにおいて優れた性能を示すが,その一般化能力はよく理解されていない。 彼らは様々な設定で主語-動詞数合意に強く依存していることが示されており、明示的な監督なしにも訓練中に統語的依存関係を追跡することを学んだことを示唆している。 本稿では,BERTがターゲット構文テンプレート上で,語彙非依存の主観値数合意(NA)をどの程度実行できるかを検討する。 そのために我々は, バートの行動の新しい細粒度解析において, 目標構造毎に自然発生する刺激にみられる語彙パターンを乱す。 名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。

Although transformer-based Neural Language Models demonstrate impressive performance on a variety of tasks, their generalization abilities are not well understood. They have been shown to perform strongly on subject-verb number agreement in a wide array of settings, suggesting that they learned to track syntactic dependencies during their training even without explicit supervision. In this paper, we examine the extent to which BERT is able to perform lexically-independen t subject-verb number agreement (NA) on targeted syntactic templates. To do so, we disrupt the lexical patterns found in naturally occurring stimuli for each targeted structure in a novel fine-grained analysis of BERT's behavior. Our results on nonce sentences suggest that the model generalizes well for simple templates, but fails to perform lexically-independen t syntactic generalization when as little as one attractor is present.
翻訳日:2022-04-15 13:01:12 公開日:2022-04-14
# オープンドメイン目標感分析の課題

Challenges for Open-domain Targeted Sentiment Analysis ( http://arxiv.org/abs/2204.06893v1 )

ライセンス: Link先を確認
Yun Luo and Hongjie Cai and Linyi Yang and Yanxia Qin and Rui Xia and Yue Zhang(参考訳) 従来,オープンドメインを対象とした感情分析はデータセット領域の多様性や文レベルに制限されていたため,興味や文書レベルのトピックでデータ領域を拡張するために,6,013人のラベル付きデータからなる新しいデータセットを提案する。 さらに,文書の完全な感情情報を抽出するためのネスト化されたターゲットアノテーションスキーマを提供し,オープンドメインターゲット感情分析の実用性と有効性を高める。 さらに,タスクのシーケンス・ツー・シーケンス生成法において,事前学習したモデルBARTを利用する。 ベンチマークの結果,オープンドメイン型感情分析の改善の余地は大きいことがわかった。 一方、実験では、オープンドメインデータ、長いドキュメント、ターゲット構造の複雑さ、ドメイン分散の効果的な利用に課題が残っていることが示されている。

Since previous studies on open-domain targeted sentiment analysis are limited in dataset domain variety and sentence level, we propose a novel dataset consisting of 6,013 human-labeled data to extend the data domains in topics of interest and document level. Furthermore, we offer a nested target annotation schema to extract the complete sentiment information in documents, boosting the practicality and effectiveness of open-domain targeted sentiment analysis. Moreover, we leverage the pre-trained model BART in a sequence-to-sequence generation method for the task. Benchmark results show that there exists large room for improvement of open-domain targeted sentiment analysis. Meanwhile, experiments have shown that challenges remain in the effective use of open-domain data, long documents, the complexity of target structure, and domain variances.
翻訳日:2022-04-15 13:00:56 公開日:2022-04-14
# XLMRQA: ベトナム語ウィキペディアに基づくテキスト知識ソースに関するオープンドメイン質問応答

XLMRQA: Open-Domain Question Answering on Vietnamese Wikipedia-based Textual Knowledge Source ( http://arxiv.org/abs/2204.07002v1 )

ライセンス: Link先を確認
Kiet Van Nguyen and Phong Nguyen-Thuan Do and Nhat Duy Nguyen and Tin Van Huynh and Anh Gia-Tuan Nguyen and Ngan Luu-Thuy Nguyen(参考訳) 質問応答(QA)は情報検索と情報抽出の分野における自然言語理解の課題であり,機械読解モデルの開発が盛んに進んでいるため,近年,計算言語学や人工知能研究コミュニティから注目が集まっている。 リーダベースのQAシステムは、機械読解(MRC)技術を用いて、オープンドメインやドメイン固有のテキストでクエリや質問に対する正しい回答を見つけることができる高レベル検索エンジンである。 一方、MSCとQAシステムにおけるデータリソースと機械学習のアプローチの進歩の大部分は、特に英語と中国語のような2つのリソースに富む言語である。 ベトナムのような低リソースの言語は、QAシステムの研究が不足しているのを目撃している。 本稿では、ウィキペディアベースのテキスト知識ソース(UIT-ViQuADコーパスを使用)で教師付きトランスフォーマーベースのリーダーを用いたベトナム初のQAシステムであるXLMRQAについて、深層ニューラルネットワークモデルを用いた2つの堅牢QAシステム(DrQAとBERTseriniのそれぞれ24.46%と6.28%)をそれぞれ上回った。 3つのシステムで得られた結果から,質問タイプがQAシステムの性能に与える影響を解析した。

Question answering (QA) is a natural language understanding task within the fields of information retrieval and information extraction that has attracted much attention from the computational linguistics and artificial intelligence research community in recent years because of the strong development of machine reading comprehension-based models. A reader-based QA system is a high-level search engine that can find correct answers to queries or questions in open-domain or domain-specific texts using machine reading comprehension (MRC) techniques. The majority of advancements in data resources and machine-learning approaches in the MRC and QA systems, on the other hand, especially in two resource-rich languages such as English and Chinese. A low-resource language like Vietnamese has witnessed a scarcity of research on QA systems. This paper presents XLMRQA, the first Vietnamese QA system using a supervised transformer-based reader on the Wikipedia-based textual knowledge source (using the UIT-ViQuAD corpus), outperforming the two robust QA systems using deep neural network models: DrQA and BERTserini with 24.46% and 6.28%, respectively. From the results obtained on the three systems, we analyze the influence of question types on the performance of the QA systems.
翻訳日:2022-04-15 13:00:43 公開日:2022-04-14
# 最小補正部分集合を用いたパレート集合の厳密かつ近似決定

Exact and approximate determination of the Pareto set using minimal correction subsets ( http://arxiv.org/abs/2204.06908v1 )

ライセンス: Link先を確認
Andreia P. Guerreiro, Jo\~ao Cortes, Daniel Vanderpooten, Cristina Bazgan, In\^es Lynce, Vasco Manquinho, Jos\'e Rui Figueira(参考訳) 近年、ブール公式の最小補正部分集合(MCS)の列挙により、MOBO(Multi-Objective Boolean Optimization)の定式化が可能であることが示されている。 しかし、このアプローチの大きな欠点は、ほとんどの MCS がパレート最適解に対応していないことである。 実際、与えられた MCS がすべての MCS が列挙されたとき、パレート最適解に対応することが分かる。 さらに、全ての MCS を列挙できない場合、パレートフロンティアの近似の品質を保証することは不可能である。 本稿では,mcssを用いたmobo解法の現状について述べる。 まず,各MCSがパレート最適解に対応するようなMOBO問題の解決にMCS列挙を用いることが可能であることを示す。 さらに,mcs列挙法を用いてパレートフロンティアの近似値(1 + {\varepsilon})を求めることができる2つの新しいアルゴリズムを提案する。 いくつかのベンチマークセットによる実験結果から,提案アルゴリズムは最先端のアルゴリズムよりもパレートフロンティアの近似の精度が向上し,近似比が保証された。

Recently, it has been shown that the enumeration of Minimal Correction Subsets (MCS) of Boolean formulas allows solving Multi-Objective Boolean Optimization (MOBO) formulations. However, a major drawback of this approach is that most MCSs do not correspond to Pareto-optimal solutions. In fact, one can only know that a given MCS corresponds to a Pareto-optimal solution when all MCSs are enumerated. Moreover, if it is not possible to enumerate all MCSs, then there is no guarantee of the quality of the approximation of the Pareto frontier. This paper extends the state of the art for solving MOBO using MCSs. First, we show that it is possible to use MCS enumeration to solve MOBO problems such that each MCS necessarily corresponds to a Pareto-optimal solution. Additionally, we also propose two new algorithms that can find a (1 + {\varepsilon})-approximation of the Pareto frontier using MCS enumeration. Experimental results in several benchmark sets show that the newly proposed algorithms allow finding better approximations of the Pareto frontier than state-of-the-art algorithms, and with guaranteed approximation ratios.
翻訳日:2022-04-15 13:00:21 公開日:2022-04-14
# (参考訳) ラベル効率学習のためのマスクシームスネットワーク [全文訳有]

Masked Siamese Networks for Label-Efficient Learning ( http://arxiv.org/abs/2204.07141v1 )

ライセンス: CC BY 4.0
Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas(参考訳) 画像表現学習のための自己教師型学習フレームワークであるMasked Siamese Networks (MSN)を提案する。 本手法は、ランダムにマスクされたパッチを含む画像ビューの表現と、元の未マスク画像の表現とを一致させる。 この自己教師付き事前学習戦略は、マスクされていないパッチのみがネットワークで処理されるため、視覚トランスフォーマーに適用すると特にスケーラブルになる。 その結果、MSNは、ローショット画像分類において競争力のある高いセマンティックレベルの表現を生成しながら、共同埋め込みアーキテクチャのスケーラビリティを改善した。 例えば、imagenet-1kでは、わずか5000の注釈付き画像で、ベースとなるmsnモデルは72.4%のtop-1精度を達成し、imagenet-1kラベルの1%で75.7%のtop-1精度を達成し、このベンチマークで自己教師あり学習のための新しい最先端の設定をしました。 私たちのコードは公開されています。

We propose Masked Siamese Networks (MSN), a self-supervised learning framework for learning image representations. Our approach matches the representation of an image view containing randomly masked patches to the representation of the original unmasked image. This self-supervised pre-training strategy is particularly scalable when applied to Vision Transformers since only the unmasked patches are processed by the network. As a result, MSNs improve the scalability of joint-embedding architectures, while producing representations of a high semantic level that perform competitively on low-shot image classification. For instance, on ImageNet-1K, with only 5,000 annotated images, our base MSN model achieves 72.4% top-1 accuracy, and with 1% of ImageNet-1K labels, we achieve 75.7% top-1 accuracy, setting a new state-of-the-art for self-supervised learning on this benchmark. Our code is publicly available.
翻訳日:2022-04-15 12:58:29 公開日:2022-04-14
# 可逆ジャンプと擬似後肢によるマルコフランダムフィールドのスパース相互作用近傍選択

Sparse Interaction Neighborhood Selection for Markov Random Fields via Reversible Jump and Pseudoposteriors ( http://arxiv.org/abs/2204.05933v2 )

ライセンス: Link先を確認
Victor Freguglia and Nancy Lopes Garcia(参考訳) マルコフ確率場モデルの相互作用近傍を有限な支持と2次元格子の相対的位置に基づく一様対の相互作用で推定する問題を考察する。 ベイジアンフレームワークを用いて,最大範囲近傍の部分集合に飛び乗る可逆ジャンプモンテカルロマルコフ連鎖アルゴリズムを提案する。

We consider the problem of estimating the interacting neighborhood of a Markov Random Field model with finite support and homogeneous pairwise interactions based on relative positions of a two-dimensional lattice. Using a Bayesian framework, we propose a Reversible Jump Monte Carlo Markov Chain algorithm that jumps across subsets of a maximal range neighborhood, allowing us to perform model selection based on a marginal pseudoposterior distribution of models.
翻訳日:2022-04-15 12:29:53 公開日:2022-04-14
# spdesを駆動するモデリングダイナミクスのための正則構造を持つニューラル演算子

Neural Operator with Regularity Structure for Modeling Dynamics Driven by SPDEs ( http://arxiv.org/abs/2204.06255v2 )

ライセンス: Link先を確認
Peiyan Hu, Qi Meng, Bingguang Chen, Shiqi Gong, Yue Wang, Wei Chen, Rongchan Zhu, Zhi-Ming Ma, Tie-Yan Liu(参考訳) 確率偏微分方程式(steastic partial differential equation, spdes)は、大気科学や物理学を含む多くの分野におけるモデリングダイナミクスの重要な道具である。 無限次元空間間のマップを学習できるニューラルネットワークの世代であるニューラルオペレータは、パラメトリックPDEを解決する強力なツールである。 しかし、駆動ノイズのため通常規則性に乏しいSPDEをモデル化する能力は欠如している。 正規性構造の理論はSPDEの解析において大きな成功を収め、SPDEの解をよく近似する特徴ベクトルの概念モデルを提供するため、SPDEによって駆動される力学をモデル化するための特徴ベクトルを組み込んだニューラル演算子(NORS)を提案する。 本研究では,動的phi41モデルと2次元確率ナビエ-ストークス方程式を含む様々なspdesについて実験を行い,norsが解像度不変で効率的であることを示し,少ないデータ量で1桁の低誤差を達成できることを示した。

Stochastic partial differential equations (SPDEs) are significant tools for modeling dynamics in many areas including atmospheric sciences and physics. Neural Operators, generations of neural networks with capability of learning maps between infinite-dimensional spaces, are strong tools for solving parametric PDEs. However, they lack the ability to modeling SPDEs which usually have poor regularity due to the driving noise. As the theory of regularity structure has achieved great successes in analyzing SPDEs and provides the concept model feature vectors that well-approximate SPDEs' solutions, we propose the Neural Operator with Regularity Structure (NORS) which incorporates the feature vectors for modeling dynamics driven by SPDEs. We conduct experiments on various of SPDEs including the dynamic Phi41 model and the 2d stochastic Navier-Stokes equation, and the results demonstrate that the NORS is resolution-invariant , efficient, and achieves one order of magnitude lower error with a modest amount of data.
翻訳日:2022-04-15 12:29:20 公開日:2022-04-14
# Intent Conditioningによる非自己回帰的意味解析のためのトップKデコーディングの改善

Improving Top-K Decoding for Non-Autoregressive Semantic Parsing via Intent Conditioning ( http://arxiv.org/abs/2204.06748v1 )

ライセンス: Link先を確認
Geunseob Oh, Rahul Goel, Chris Hidey, Shachi Paul, Aditya Gupta, Pararth Shah, Rushin Shah(参考訳) Semantic parsing (SP)は、Google AssistantやAmazon Alexaのような現代の仮想アシスタントの中核的なコンポーネントである。 sequence-to-sequence -based auto-regressive (ar) アプローチは対話的意味解析では一般的であるが、近年の研究では非自己回帰型(nar)デコーダを採用し、競合的パース品質を維持しつつ推論レイテンシを削減する。 しかし、NARデコーダの大きな欠点は、ビームサーチのようなアプローチでトップk(すなわちk-best)出力を生成することの難しさである。 この課題に対処するために、デコーダにインテント条件を導入する新しいNARセマンティックパーサを提案する。 従来のインテントとスロットタギングパーサーにインスパイアされた私たちは、トップレベルのインテント予測を他のパースから切り離します。 トップレベルのインテントがパースの構文とセマンティクスを主に支配しているため、インテントコンディショニングにより、モデルがビームサーチをより良く制御でき、トップk出力の品質と多様性が向上する。 学習と推論ミスマッチを避けるために,ハイブリッド型教員強制アプローチを導入する。 提案する対話型spデータセットtop & topv2のnarを評価する。 既存のnarモデルと同様に、より多様な出力を生成しながらo(1)復号時間の複雑さを維持し、トップ3完全一致(em)を2.4ポイント改善する。 ARモデルと比較して、我々のモデルは、競合するトップkEMでCPU上でのビームサーチを6.7倍高速化する。

Semantic parsing (SP) is a core component of modern virtual assistants like Google Assistant and Amazon Alexa. While sequence-to-sequence -based auto-regressive (AR) approaches are common for conversational semantic parsing, recent studies employ non-autoregressive (NAR) decoders and reduce inference latency while maintaining competitive parsing quality. However, a major drawback of NAR decoders is the difficulty of generating top-k (i.e., k-best) outputs with approaches such as beam search. To address this challenge, we propose a novel NAR semantic parser that introduces intent conditioning on the decoder. Inspired by the traditional intent and slot tagging parsers, we decouple the top-level intent prediction from the rest of a parse. As the top-level intent largely governs the syntax and semantics of a parse, the intent conditioning allows the model to better control beam search and improves the quality and diversity of top-k outputs. We introduce a hybrid teacher-forcing approach to avoid training and inference mismatch. We evaluate the proposed NAR on conversational SP datasets, TOP & TOPv2. Like the existing NAR models, we maintain the O(1) decoding time complexity while generating more diverse outputs and improving the top-3 exact match (EM) by 2.4 points. In comparison with AR models, our model speeds up beam search inference by 6.7 times on CPU with competitive top-k EM.
翻訳日:2022-04-15 12:29:03 公開日:2022-04-14
# CLUES:自然言語説明を用いた分類器学習ベンチマーク

CLUES: A Benchmark for Learning Classifiers using Natural Language Explanations ( http://arxiv.org/abs/2204.07142v1 )

ライセンス: Link先を確認
Rakesh R Menon, Sayan Ghosh, Shashank Srivastava(参考訳) 教師付き学習は伝統的に、タスクのラベル付き例を観察して帰納学習に焦点を当ててきた。 対照的に、人間は言語から新しい概念を学ぶ能力を持っている。 ここでは、純粋に言語から構造化されたデータに対するゼロショット分類器の訓練について検討する。 そこで本研究では,構造化データ上での分類タスクと自然言語指導を併用した,自然言語説明を用いた分類学習のためのベンチマークであるcucumbersを提案する。 手がかりは36の現実世界と144の合成分類からなる。 これには、複数の教師による現実世界のタスクを記述するクラウドソースの説明と、合成タスクのプログラムで生成された説明が含まれている。 例の分類における説明の影響をモデル化するために,説明を用いて分類子を学習する補足型モデルexentを開発した。 exentは、説明を使用しないベースラインよりも、新しいタスクで最大18%良い(相対)ことを一般化する。 我々は、将来CLUESの進歩につながる可能性のある説明から、自動学習の重要な課題を述べます。 コードとデータセットは、https://clues-benchm ark.github.io.comで入手できる。

Supervised learning has traditionally focused on inductive learning by observing labeled examples of a task. In contrast, humans have the ability to learn new concepts from language. Here, we explore training zero-shot classifiers for structured data purely from language. For this, we introduce CLUES, a benchmark for Classifier Learning Using natural language ExplanationS, consisting of a range of classification tasks over structured data along with natural language supervision in the form of explanations. CLUES consists of 36 real-world and 144 synthetic classification tasks. It contains crowdsourced explanations describing real-world tasks from multiple teachers and programmatically generated explanations for the synthetic tasks. To model the influence of explanations in classifying an example, we develop ExEnt, an entailment-based model that learns classifiers using explanations. ExEnt generalizes up to 18% better (relative) on novel tasks than a baseline that does not use explanations. We delineate key challenges for automated learning from explanations, addressing which can lead to progress on CLUES in the future. Code and datasets are available at: https://clues-benchm ark.github.io.
翻訳日:2022-04-15 12:26:32 公開日:2022-04-14
# グローバルな反事実的説明:調査、実施、改善

Global Counterfactual Explanations: Investigations, Implementations and Improvements ( http://arxiv.org/abs/2204.06917v1 )

ライセンス: Link先を確認
Dan Ley, Saumitra Mishra, Daniele Magazzeni(参考訳) 対物的説明は、公正性、リコース、モデル理解に現れる様々なアプリケーション依存の手法を用いて、説明可能性において広く研究されてきた。 しかし、これらのメソッドに関連する主な欠点は、ローカルレベルやインスタンスレベルで説明できないことである。 グローバルな説明の概念に触発する研究もあるが、一般的には、グローバルな性質を確かめるために、局所的な説明の大量を集約することを示唆するが、信頼性または計算的に抽出可能なフレームワークを提供するものはほとんどない。 一方、実践者はより効率的でインタラクティブな説明ツールを求めている。 我々は、この機会を利用して既存のグローバルメソッドを調査し、recourseの唯一のグローバルな反事実的説明フレームワークであるactionable recourse summaries(ares)を実装し、改善することに集中する。

Counterfactual explanations have been widely studied in explainability, with a range of application dependent methods emerging in fairness, recourse and model understanding. However, the major shortcoming associated with these methods is their inability to provide explanations beyond the local or instance-level. While some works touch upon the notion of a global explanation, typically suggesting to aggregate masses of local explanations in the hope of ascertaining global properties, few provide frameworks that are either reliable or computationally tractable. Meanwhile, practitioners are requesting more efficient and interactive explainability tools. We take this opportunity to investigate existing global methods, with a focus on implementing and improving Actionable Recourse Summaries (AReS), the only known global counterfactual explanation framework for recourse.
翻訳日:2022-04-15 12:26:17 公開日:2022-04-14
# HASA: 超音波画像におけるエキノコッカス分類と卵巣分画のためのアグリゲーション戦略を用いたハイブリッドアーキテクチャ検索

HASA: Hybrid Architecture Search with Aggregation Strategy for Echinococcosis Classification and Ovary Segmentation in Ultrasound Images ( http://arxiv.org/abs/2204.06697v1 )

ライセンス: Link先を確認
Jikuan Qian (1,2 and 3), Rui Li (1,2 and 3), Xin Yang (1,2 and 3), Yuhao Huang (1,2 and 3), Mingyuan Luo (1,2 and 3), Zehui Lin (1,2 and 3), Wenhui Hong (1,2 and 3), Ruobing Huang (1,2 and 3), Haining Fan (4), Dong Ni (1,2 and 3), Jun Cheng (1,2 and 3) ((1) aNational-Regional Key Technology Engineering Laboratory for Medical Ultrasound, School of Biomedical Engineering, Health Science Center, Shenzhen University, Shenzhen, China, (2) Medical Ultrasound Image Computing (MUSIC) Laboratory, Shenzhen University, Shenzhen, China, (3) Marshall Laboratory of Biomedical Engineering, Shenzhen University, Shenzhen, China, (4) Qinghai University Affiliated Hospital, Xining, Qinghai, China)(参考訳) 手作りの機能とは異なり、ディープニューラルネットワークはデータからタスク固有の機能を自動的に学習することができる。 このデータ駆動の性質から、様々な分野で大きな成功を収めている。 しかし、手動設計と適切なネットワークアーキテクチャの選択は時間がかかり、人間の専門家のかなりの労力を必要とする。 この問題に対処するため、研究者らは、ネットワークアーキテクチャを自動生成できるニューラルネットワーク探索(NAS)アルゴリズムを提案したが、スクラッチから検索すると計算コストと不安定さに悩まされる。 本稿では,超音波(US)画像分類とセグメンテーションのためのハイブリッドNASフレームワークを提案する。 ハイブリッドフレームワークは、事前訓練されたバックボーンといくつかの検索されたセル(ネットワーク構築ブロック)で構成され、NASの強みと既存の畳み込みニューラルネットワークからのエキスパート知識の両方を活用する。 具体的には、探索セルの多様性と容量を高めるために、2つの効果的で軽量な操作、混合深度ワイド畳み込み演算子と押出し励みブロックを候補操作に導入する。 これら2つの操作はモデルパラメータを減少させるだけでなく、ネットワーク性能を向上させる。 さらに,探索されたセルに対する再集合戦略を提案し,様々な視覚タスクの性能向上を目指す。 そこで我々は,分類用9566画像を含む9クラスアキノコッカスデータセットと,セグメンテーション用3204画像を含む卵巣データセットの2つの大きな米国画像データセットについて実験を行った。 他の手作り・自動検索アーキテクチャと比較したアブレーション実験により,上記の米国画像分類およびセグメント化タスクに対して,より強力で軽量なモデルを生成することができることを示した。

Different from handcrafted features, deep neural networks can automatically learn task-specific features from data. Due to this data-driven nature, they have achieved remarkable success in various areas. However, manual design and selection of suitable network architectures are time-consuming and require substantial effort of human experts. To address this problem, researchers have proposed neural architecture search (NAS) algorithms which can automatically generate network architectures but suffer from heavy computational cost and instability if searching from scratch. In this paper, we propose a hybrid NAS framework for ultrasound (US) image classification and segmentation. The hybrid framework consists of a pre-trained backbone and several searched cells (i.e., network building blocks), which takes advantage of the strengths of both NAS and the expert knowledge from existing convolutional neural networks. Specifically, two effective and lightweight operations, a mixed depth-wise convolution operator and a squeeze-and-excitati on block, are introduced into the candidate operations to enhance the variety and capacity of the searched cells. These two operations not only decrease model parameters but also boost network performance. Moreover, we propose a re-aggregation strategy for the searched cells, aiming to further improve the performance for different vision tasks. We tested our method on two large US image datasets, including a 9-class echinococcosis dataset containing 9566 images for classification and an ovary dataset containing 3204 images for segmentation. Ablation experiments and comparison with other handcrafted or automatically searched architectures demonstrate that our method can generate more powerful and lightweight models for the above US image classification and segmentation tasks.
翻訳日:2022-04-15 12:25:38 公開日:2022-04-14
# 緑内障診断のための視神経頭部の臨界3次元構造特徴同定のための幾何学的深層学習

Geometric Deep Learning to Identify the Critical 3D Structural Features of the Optic Nerve Head for Glaucoma Diagnosis ( http://arxiv.org/abs/2204.06931v1 )

ライセンス: Link先を確認
Fabian A. Braeu, Alexandre H. Thi\'ery, Tin A. Tun, Aiste Kadziauskiene, George Barbastathis, Tin Aung, and Micha\"el J.A. Girard(参考訳) 目的:視神経頭(ONH)は緑内障の発生と進展の間に複雑で深い3次元形態変化を呈する。 光コヒーレンス・トモグラフィー(OCT)はこれらの変化を可視化し定量化するための現在の金標準であるが、3次元の深部情報はまだ緑内障の診断と予後に十分に活用されていない。 そこで本研究では,1)onhの1つのoctスキャンから緑内障を診断する2つの比較的最近の幾何学的深層学習手法の性能を比較すること,(2)緑内障の診断に重要なonhの3次元的特徴を明らかにすることを目的とした。 方法: 本研究では, 非緑内障2,247例, 緑内障2,259例を対象とした。 全被験者はSpectralis OCTで3DでONHを画像化した。 octスキャンはすべて、ディープラーニングを使って自動的に分割され、主要な神経組織と結合組織を識別した。 それぞれのONHは3次元の点雲として表現された。 3d onh点雲から緑内障を診断するためにpointnetとdynamic graph convolutional neural network(dgcnn)を用い,緑内障診断にonhの致命的な3d構造特徴を同定した。 結果: DGCNN (AUC: 0.97$\pm$0.01) と PointNet (AUC: 0.95$\pm$0.02) は3D ONH点群から緑内障を正確に検出することができた。 臨界点は1時間ガラスのパターンを形成し、そのほとんどはONHの4分の1の下位に位置する。 考察: 幾何的深層学習アプローチの診断精度は良好であった。 さらに, 緑内障診断におけるonhの3次元構造的特徴を同定し, 透明性と解釈性を大幅に向上させた。 その結果,幅広い眼疾患の診断・予後に臨床応用できる可能性が示唆された。

Purpose: The optic nerve head (ONH) undergoes complex and deep 3D morphological changes during the development and progression of glaucoma. Optical coherence tomography (OCT) is the current gold standard to visualize and quantify these changes, however the resulting 3D deep-tissue information has not yet been fully exploited for the diagnosis and prognosis of glaucoma. To this end, we aimed: (1) To compare the performance of two relatively recent geometric deep learning techniques in diagnosing glaucoma from a single OCT scan of the ONH; and (2) To identify the 3D structural features of the ONH that are critical for the diagnosis of glaucoma. Methods: In this study, we included a total of 2,247 non-glaucoma and 2,259 glaucoma scans from 1,725 subjects. All subjects had their ONHs imaged in 3D with Spectralis OCT. All OCT scans were automatically segmented using deep learning to identify major neural and connective tissues. Each ONH was then represented as a 3D point cloud. We used PointNet and dynamic graph convolutional neural network (DGCNN) to diagnose glaucoma from such 3D ONH point clouds and to identify the critical 3D structural features of the ONH for glaucoma diagnosis. Results: Both the DGCNN (AUC: 0.97$\pm$0.01) and PointNet (AUC: 0.95$\pm$0.02) were able to accurately detect glaucoma from 3D ONH point clouds. The critical points formed an hourglass pattern with most of them located in the inferior and superior quadrant of the ONH. Discussion: The diagnostic accuracy of both geometric deep learning approaches was excellent. Moreover, we were able to identify the critical 3D structural features of the ONH for glaucoma diagnosis that tremendously improved the transparency and interpretability of our method. Consequently, our approach may have strong potential to be used in clinical applications for the diagnosis and prognosis of a wide range of ophthalmic disorders.
翻訳日:2022-04-15 12:25:08 公開日:2022-04-14
# ロボットビンピッキングのための反復自己学習による6次元オブジェクトの同時評価

Sim-to-Real 6D Object Pose Estimation via Iterative Self-training for Robotic Bin-picking ( http://arxiv.org/abs/2204.07049v1 )

ライセンス: Link先を確認
Kai Chen, Rui Cao, Stephen James, Yichuan Li, Yun-Hui Liu, Pieter Abbeel, and Qi Dou(参考訳) 本稿では,費用対効果の高いロボットグルーピングを容易にするために,シミュレーティブな6次元オブジェクトポーズ推定のための反復的自己学習フレームワークを提案する。 ビンピッキングのシナリオを前提として,豊富な仮想データを合成するフォトリアリスティックシミュレータを構築し,これを初期ポーズ推定ネットワークのトレーニングに用いる。 このネットワークは教師モデルの役割を担い、ラベルなしの実データに対してポーズ予測を生成する。 これらの予測により、信頼性の高い結果を識別するための包括的適応選択スキームを更に設計し、実データに対するポーズ推定のための学生モデルを更新するための擬似ラベルとして活用する。 擬似ラベルの品質を継続的に向上させるために,訓練した生徒モデルを新しい教師として活用し,洗練された教師モデルを用いて実データを再ラベルする。 提案手法を公開ベンチマークと新たにリリースしたデータセットで評価し,それぞれ11.49%と22.62%のadd(-s)改善を行った。 また,ロボットのビンピッキング成功率を19.54%向上させ,ロボット応用における反復型sim-to-realソリューションの可能性を示した。

In this paper, we propose an iterative self-training framework for sim-to-real 6D object pose estimation to facilitate cost-effective robotic grasping. Given a bin-picking scenario, we establish a photo-realistic simulator to synthesize abundant virtual data, and use this to train an initial pose estimation network. This network then takes the role of a teacher model, which generates pose predictions for unlabeled real data. With these predictions, we further design a comprehensive adaptive selection scheme to distinguish reliable results, and leverage them as pseudo labels to update a student model for pose estimation on real data. To continuously improve the quality of pseudo labels, we iterate the above steps by taking the trained student model as a new teacher and re-label real data using the refined teacher model. We evaluate our method on a public benchmark and our newly-released dataset, achieving an ADD(-S) improvement of 11.49% and 22.62% respectively. Our method is also able to improve robotic bin-picking success by 19.54%, demonstrating the potential of iterative sim-to-real solutions for robotic applications.
翻訳日:2022-04-15 12:24:31 公開日:2022-04-14
# 近所注意変圧器

Neighborhood Attention Transformer ( http://arxiv.org/abs/2204.07143v1 )

ライセンス: Link先を確認
Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi(参考訳) 本稿では,画像分類と下流ビジョンの両面で有効な効率良く高精度でスケーラブルな階層的トランスフォーマーであるneighborion attention transformer (nat)を提案する。 Neighborhood Attention (NA)は、クエリの受信フィールドを近隣のピクセルにローカライズするシンプルで柔軟なアテンションメカニズムである。 NAは自己注意の局所化であり、受容野のサイズが大きくなるにつれてそれにアプローチする。 また、同じレセプティブフィールドサイズでスウィントランスのシフトウインドウアテンションと同等のフロップとメモリ使用量を持つが、制約は少ない。 さらに、NAは局所誘導バイアスを含んでおり、ピクセルシフトのような余分な操作は不要である。 NAT-Tinyは4.3 GFLOPsと28Mパラメータしか持たないImageNetで83.2%、MS-COCOでは51.4%、ADE20kでは48.4%である。 私たちは、チェックポイント、トレーニングスクリプト、設定、CUDAカーネルを、https://github.com/S HI-Labs/Neighborhood -Attention-Transform erでオープンソース化します。

We present Neighborhood Attention Transformer (NAT), an efficient, accurate and scalable hierarchical transformer that works well on both image classification and downstream vision tasks. It is built upon Neighborhood Attention (NA), a simple and flexible attention mechanism that localizes the receptive field for each query to its nearest neighboring pixels. NA is a localization of self-attention, and approaches it as the receptive field size increases. It is also equivalent in FLOPs and memory usage to Swin Transformer's shifted window attention given the same receptive field size, while being less constrained. Furthermore, NA includes local inductive biases, which eliminate the need for extra operations such as pixel shifts. Experimental results on NAT are competitive; NAT-Tiny reaches 83.2% top-1 accuracy on ImageNet with only 4.3 GFLOPs and 28M parameters, 51.4% mAP on MS-COCO and 48.4% mIoU on ADE20k. We will open-source our checkpoints, training script, configurations, and our CUDA kernel at: https://github.com/S HI-Labs/Neighborhood -Attention-Transform er .
翻訳日:2022-04-15 12:24:12 公開日:2022-04-14
# マルチ言語手話符号化のためのオープンソースHamNoSysパーサ

Open Source HamNoSys Parser for Multilingual Sign Language Encoding ( http://arxiv.org/abs/2204.06924v1 )

ライセンス: Link先を確認
Sylwia Majchrowska and Marta Plantykow and Milena Olech(参考訳) 本稿では,Hamburg Sign Language Annotation System (HamNoSys) を用いた手話コーパスの自動処理分野における最近の進歩について述べる。 身体と手の位置の最初の特徴を定義するために,hamnosysアノテーションを数値ラベルに変換する自動ツールを設計した。 提案する数値マルチラベルは,光沢を損なうことなく,HamNoSysアノテーションの構造を大幅に単純化する。 これらの数値マルチラベルは、視覚ベースの手話認識の開発を加速する機械学習モデルへの供給に使用できる可能性がある。 さらにこのツールは、アノテーションプロセスの専門家が意味的エラーを特定するのを助けることができる。 コードとサンプルアノテーションはhttps://github.com/h earai/parse-hamnosys で公開されている。

This paper presents our recent developments in the field of automatic processing of sign language corpora using the Hamburg Sign Language Annotation System (HamNoSys). We designed an automated tool to convert HamNoSys annotations into numerical labels for defined initial features of body and hand positions. Our proposed numerical multilabels greatly simplify the structure of HamNoSys annotation without significant loss of gloss meaning. These numerical multilabels can potentially be used to feed the machine learning models, which would accelerate the development of vision-based sign language recognition. In addition, this tool can assist experts in the annotation process to help identify semantic errors. The code and sample annotations are publicly available at https://github.com/h earai/parse-hamnosys .
翻訳日:2022-04-15 12:21:51 公開日:2022-04-14
# さまざまなソースからの引用:事前学習された言語モデルによるWikidataからの行補完強化

Rows from Many Sources: Enriching row completions from Wikidata with a pre-trained Language Model ( http://arxiv.org/abs/2204.07014v1 )

ライセンス: Link先を確認
Carina Negreanu, Alperen Karaoglu, Jack Williams, Shuang Chen, Daniel Fabian, Andrew Gordon, Chin-Yew Lin(参考訳) ロウ補完は、与えられたテキストと数字のテーブルを、追加の関連する行で拡張するタスクである。 タスクは2つのステップに分けられる: 主題の提案、メインカラムをポピュレーションするタスク、そして、残りのカラムをポピュレーションするタスクであるギャップフィリング。 標準ベンチマーク(WikiTables)で測定した課題提案とギャップフィリングの最先端結果を示す。 我々のアイデアは知識ベーステーブルの解釈と自由テキスト生成を調和させることでこの課題を解決することである。 我々は、知識ベースを用いてテーブルを解釈し、新しい行を提案し、プロパティリンクを通じてヘッダーのようなメタデータを生成する。 候補の多様性を向上させるために,GPT-3を介して自由テキスト生成を用いて追加行を合成し,重要な点として,文生成のためのより良いプロンプトを生成するために解釈したメタデータを利用する。 最後に,知識ベースやウィキペディアなどの信頼できるWebソースに,追加の合成コンテンツがリンク可能であることを検証した。

Row completion is the task of augmenting a given table of text and numbers with additional, relevant rows. The task divides into two steps: subject suggestion, the task of populating the main column; and gap filling, the task of populating the remaining columns. We present state-of-the-art results for subject suggestion and gap filling measured on a standard benchmark (WikiTables). Our idea is to solve this task by harmoniously combining knowledge base table interpretation and free text generation. We interpret the table using the knowledge base to suggest new rows and generate metadata like headers through property linking. To improve candidate diversity, we synthesize additional rows using free text generation via GPT-3, and crucially, we exploit the metadata we interpret to produce better prompts for text generation. Finally, we verify that the additional synthesized content can be linked to the knowledge base or a trusted web source such as Wikipedia.
翻訳日:2022-04-15 12:21:40 公開日:2022-04-14
# 弱教師付き意味セグメンテーションのための再帰的およびある種の混合

RecurSeed and CertainMix for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2204.06754v1 )

ライセンス: Link先を確認
Sang Hyun Jo, In Jae Yu, Kyung-Su Kim(参考訳) 画像レベルラベル(wsss-il)のみを用いた、弱い教師付きセマンティックセグメンテーションは潜在的に有用であるが、その低パフォーマンスと実装の複雑さはアプリケーションを制限する。 主な原因は (a)非検出、及び (b)誤検出現象 (a) 既存のWSSS-ILメソッドから洗練されているクラスアクティベーションマップは、いまだに大規模オブジェクトの部分領域のみを表すものであり、 (b)小規模オブジェクトの場合、過剰なアクティベーションはオブジェクトエッジから外れる原因となる。 再帰的反復による非及び偽検出を交互に削減し,両誤差を最小化する最適な接合点を暗黙的に見つける再帰的手法を提案する。 また,再帰の有効性を最大化するために,オブジェクトマスクを仮想的に生成し,それらのエッジをさらに表現し,空間情報を通じてオブジェクトの存在信頼性を効果的に反映する新しいda法を提案する。 PASCAL VOC 2012とMS COCO 2014ベンチマーク(VOC val 72.4%、COCO val 45.0%)で、最先端のパフォーマンスを新たに達成しました。 コードはhttps://github.com/o frin/recurseed_and_c ertainmixで入手できる。

Although weakly supervised semantic segmentation using only image-level labels (WSSS-IL) is potentially useful, its low performance and implementation complexity still limit its application. The main causes are (a) non-detection and (b) false-detection phenomena: (a) The class activation maps refined from existing WSSS-IL methods still only represent partial regions for large-scale objects, and (b) for small-scale objects, over-activation causes them to deviate from the object edges. We propose RecurSeed which alternately reduces non- and false-detections through recursive iterations, thereby implicitly finding an optimal junction that minimizes both errors. To maximize the effectiveness of RecurSeed, we also propose a novel data augmentation (DA) approach called CertainMix, which virtually creates object masks and further expresses their edges in combining the segmentation results, thereby obtaining a new DA method effectively reflecting object existence reliability through the spatial information. We achieved new state-of-the-art performances on both the PASCAL VOC 2012 and MS COCO 2014 benchmarks (VOC val 72.4%, COCO val 45.0%). The code is available at https://github.com/O FRIN/RecurSeed_and_C ertainMix.
翻訳日:2022-04-15 12:21:21 公開日:2022-04-14
# 3d shuffle-mixer: 医療容積の密集予測のためのトランスフォーマーmlpパラダイムの効率的な文脈認識視覚学習器

3D Shuffle-Mixer: An Efficient Context-Aware Vision Learner of Transformer-MLP Paradigm for Dense Prediction in Medical Volume ( http://arxiv.org/abs/2204.06779v1 )

ライセンス: Link先を確認
Jianye Pang, Cheng Jiang, Yihao Chen, Jianbo Chang, Ming Feng, Renzhi Wang and Jianhua Yao(参考訳) 医療量予測は、臨床分析のための豊富なガイダンスを提供する。 CNNのバックボーンは、長距離依存とグローバルコンテキストモデリング能力の欠如によりボトルネックに直面している。 視覚トランスフォーマーとcnnを組み合わせるための最近の研究は、その強力なグローバルキャプチャ能力と学習能力のために提案されている。 しかし、ほとんどの研究は、いくつかの致命的な欠陥(帰納的バイアスの欠如、重い計算、そして3Dデータに対する考慮不足)を持つ純粋なトランスフォーマーを単に適用することに限定されている。 したがって、医療容積の密集した予測のためのエレガントで効率的な視覚トランスフォーマー学習器の設計は、有望かつ困難である。 本稿では,医療密度予測のための新しいローカルビジョン変換器-MLPパラダイムの3次元シャッフルミクサネットワークを提案する。 我々のネットワークでは、局所視覚変換器ブロックを用いて、再配置されたボリュームのフルビュースライスから空間コンテキストをシャッフルし学習し、残りのボリュームコンテキストをスライス対応で混合・キャプチャする残軸MLPを設計し、MLPビューアグリゲータを用いて学習されたフルビューリッチコンテキストをビュー対応でボリューム特徴に投影する。 さらに、局所視覚変換器において、空間次元やチャネル次元に沿った特徴を適応的に拡張する適応的スケール拡張ショートカットを提案し、ピラミッド構造におけるマルチスケール特徴を適切にスキップ接続するクロスマージを提案する。 大規模な実験は、提案モデルが他の最先端の医療密度予測法より優れていることを示す。

Dense prediction in medical volume provides enriched guidance for clinical analysis. CNN backbones have met bottleneck due to lack of long-range dependencies and global context modeling power. Recent works proposed to combine vision transformer with CNN, due to its strong global capture ability and learning capability. However, most works are limited to simply applying pure transformer with several fatal flaws (i.e., lack of inductive bias, heavy computation and little consideration for 3D data). Therefore, designing an elegant and efficient vision transformer learner for dense prediction in medical volume is promising and challenging. In this paper, we propose a novel 3D Shuffle-Mixer network of a new Local Vision Transformer-MLP paradigm for medical dense prediction. In our network, a local vision transformer block is utilized to shuffle and learn spatial context from full-view slices of rearranged volume, a residual axial-MLP is designed to mix and capture remaining volume context in a slice-aware manner, and a MLP view aggregator is employed to project the learned full-view rich context to the volume feature in a view-aware manner. Moreover, an Adaptive Scaled Enhanced Shortcut is proposed for local vision transformer to enhance feature along spatial and channel dimensions adaptively, and a CrossMerge is proposed to skip-connects the multi-scale feature appropriately in the pyramid architecture. Extensive experiments demonstrate the proposed model outperforms other state-of-the-art medical dense prediction methods.
翻訳日:2022-04-15 12:20:54 公開日:2022-04-14
# プロキシフリーフェデレーション蒸留における分散知識の一致の探索

Exploring the Distributed Knowledge Congruence in Proxy-data-free Federated Distillation ( http://arxiv.org/abs/2204.07028v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Qingxiang Liu(参考訳) Federated Learning(FL)は、サーバがプライベートデータを組み立てることなく、クライアントからローカルモデルパラメータを定期的に集約する分散機械学習パラダイムである。 ユーザ制約のある通信帯域幅とパーソナライズされたモデルの要求はFLに深刻な課題をもたらす。 fd(federated distillation)は、サーバとクライアントの間で知識を交換し、異種ローカルモデルをサポートしながら通信オーバーヘッドを大幅に削減する2つの問題を解決するために提案されている。 しかし、既存のほとんどのFDメソッドはプロキシデータセットを必要としており、しばしば利用できない。 proxy-data-free fdアプローチは、クライアントのプライベートデータ以上のパブリックデータの必要性を排除するが、モデルの不均一性によるローカル知識間の著しい不一致に苦しめられ、サーバの曖昧な表現と必然的な正確さの低下に繋がる。 この問題に対処するため,分散知識合同(FedDKC)に基づくプロキシフリーFDアルゴリズムを提案する。 FedDKCは、よく設計された洗練戦略を利用して、局所的な知識の違いを許容できる上限に絞り込み、知識の不一致の負の効果を軽減する。 具体的には、局所知識のピーク確率とシャノンエントロピーの観点から、カーネルベースの知識洗練(KKR)と探索ベースの知識洗練(SKR)をそれぞれ設計し、局所知識がほぼ同種の分布を満たすことを理論的に保証し、同種と見なす。 3つの共通データセットで行った広範囲な実験により、提案手法が93.33%の比較で最先端を上回り、通信オーバーヘッドを増大させることなく高速に収束することを示した。

Federated learning (FL) is a distributed machine learning paradigm in which the server periodically aggregates local model parameters from clients without assembling their private data. User-constrained communication bandwidth and the requirement for personalized models pose severe challenges to FL. Federated distillation (FD) is proposed to simultaneously address the two problems, which exchanges knowledge between the server and clients, supporting heterogeneous local models while significantly reducing communication overhead. However, most existing FD methods require a proxy dataset, which is often unavailable. Proxy-data-free FD approaches eliminate the need for additional public data beyond clients' private data, but suffer from remarkable discrepancy among local knowledge due to model heterogeneity, leading to ambiguous representation on the server and inevitable accuracy degradation. To tackle this issue, we propose a proxy-data-free FD algorithm based on distributed knowledge congruence (FedDKC). FedDKC leverages well-designed refinement strategies to narrow local knowledge differences into an acceptable upper bound to mitigate the negative effects of knowledge incongruence. Specifically, from perspectives of peak probability and Shannon entropy of local knowledge, we design kernel-based knowledge refinement (KKR) and searching-based knowledge refinement (SKR) respectively, and theoretically guarantee the refined-local knowledge can satisfy an approximately-simila r distribution and be regarded as congruent. Extensive experiments conducted on three common datasets demonstrate that our proposed FedDKC method outperforms the state-of-the-art in 93.33% of comparisons, and achieves faster convergence without increasing communication overhead.
翻訳日:2022-04-15 12:18:56 公開日:2022-04-14
# (参考訳) ネットワークダウンスケーリングによる大規模多目的影響最大化 [全文訳有]

Large-scale multi-objective influence maximisation with network downscaling ( http://arxiv.org/abs/2204.06250v2 )

ライセンス: CC BY 4.0
Elia Cunegatti, Giovanni Iacca, Doina Bucur(参考訳) ネットワーク内で最も影響力のあるノードを見つけることは、様々な種類のネットワークベースの問題に対していくつかの応用が可能な計算上難しい問題である。 影響最大化(IM)問題に対処するためのいくつかの手法が提案されているが、ネットワークサイズが大きくなると、その実行環境は良くない。 本稿では,ネットワークのダウンスケーリングに基づく手法を提案する。この手法により,マルチオブジェクト進化アルゴリズム (MOEA) は,元のネットワークの関連性を保ちながら,縮小スケールネットワーク上のIM問題を解くことができる。 ダウンスケールされたソリューションは、PageRankなどの集中度メトリクスに基づいたメカニズムを使用して、元のネットワークにスケールアップされる。 提案手法の有効性は,従来のネットワークに比べて10倍以上に向上し,CELFと比較して最大8,2 % の時間短縮が可能であった。

Finding the most influential nodes in a network is a computationally hard problem with several possible applications in various kinds of network-based problems. While several methods have been proposed for tackling the influence maximisation (IM) problem, their runtime typically scales poorly when the network size increases. Here, we propose an original method, based on network downscaling, that allows a multi-objective evolutionary algorithm (MOEA) to solve the IM problem on a reduced scale network, while preserving the relevant properties of the original network. The downscaled solution is then upscaled to the original network, using a mechanism based on centrality metrics such as PageRank. Our results on eight large networks (including two with $\sim$50k nodes) demonstrate the effectiveness of the proposed method with a more than 10-fold runtime gain compared to the time needed on the original network, and an up to $82\%$ time reduction compared to CELF.
翻訳日:2022-04-15 12:16:17 公開日:2022-04-14
# 自動マルチラベルプロンプト:単純かつ解釈可能な少数ショット分類

Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification ( http://arxiv.org/abs/2204.06305v2 )

ライセンス: Link先を確認
Han Wang and Canwen Xu and Julian McAuley(参考訳) プロンプトベースの学習(即ちプロンプト)は、事前学習された言語モデルによって学習された知識を活用するための新しいパラダイムである。 本稿では,プロンプトによる限定的なテキスト分類のためのラベルマッピングを自動的に選択する簡易かつ効果的な手法である,自動マルチラベルプロンプト(amulap)を提案する。 提案手法は1対多のラベルマッピングと統計に基づくアルゴリズムを用いて,プロンプトテンプレートを付与したラベルマッピングを選択する。 実験の結果,AMuLaPは人的労力や外部リソースを使わずにGLUEベンチマーク上での競合性能を実証した。

Prompt-based learning (i.e., prompting) is an emerging paradigm for exploiting knowledge learned by a pretrained language model. In this paper, we propose Automatic Multi-Label Prompting (AMuLaP), a simple yet effective method to automatically select label mappings for few-shot text classification with prompting. Our method exploits one-to-many label mappings and a statistics-based algorithm to select label mappings given a prompt template. Our experiments demonstrate that AMuLaP achieves competitive performance on the GLUE benchmark without human effort or external resources.
翻訳日:2022-04-15 11:47:35 公開日:2022-04-14
# clmlf:マルチモーダル感情検出のためのコントラスト学習と多層融合法

CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for Multimodal Sentiment Detection ( http://arxiv.org/abs/2204.05515v2 )

ライセンス: Link先を確認
Zhen Li, Bing Xu, Conghui Zhu, Tiejun Zhao(参考訳) ユニモーダルデータと比較すると、マルチモーダルデータは、モデルがデータの感情を分析するのに役立つより多くの機能を提供する。 従来の研究ではトークンレベルの特徴融合はめったに検討されておらず、モデルがマルチモーダルな特徴を融合させるためにマルチモーダルなデータの感情に関連する共通の特徴を学習する研究はほとんどない。 本稿では,マルチモーダル感情検出のためのコントラスト学習と多層融合(CLMLF)手法を提案する。 具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整合・融合する。 また、感情分析タスクに加えて、ラベルベースのコントラスト学習とデータベースのコントラスト学習タスクという2つのコントラスト学習タスクも設計し、マルチモーダルデータにおける感情に関する共通特徴の学習を支援する。 3つの公開マルチモーダルデータセットで行った広範囲な実験は、既存の手法と比較して、マルチモーダル感情検出に対するアプローチの有効性を示している。 コードはhttps://github.com/L ink-Li/CLMLFで利用可能である。

Compared with unimodal data, multimodal data can provide more features to help the model analyze the sentiment of data. Previous research works rarely consider token-level feature fusion, and few works explore learning the common features related to sentiment in multimodal data to help the model fuse multimodal features. In this paper, we propose a Contrastive Learning and Multi-Layer Fusion (CLMLF) method for multimodal sentiment detection. Specifically, we first encode text and image to obtain hidden representations, and then use a multi-layer fusion module to align and fuse the token-level features of text and image. In addition to the sentiment analysis task, we also designed two contrastive learning tasks, label based contrastive learning and data based contrastive learning tasks, which will help the model learn common features related to sentiment in multimodal data. Extensive experiments conducted on three publicly available multimodal datasets demonstrate the effectiveness of our approach for multimodal sentiment detection compared with existing methods. The codes are available for use at https://github.com/L ink-Li/CLMLF
翻訳日:2022-04-15 11:47:02 公開日:2022-04-14
# GERE: ファクト検証のための生成的証拠検索

GERE: Generative Evidence Retrieval for Fact Verification ( http://arxiv.org/abs/2204.05511v2 )

ライセンス: Link先を確認
Jiangui Chen, Ruqing Zhang, Jiafeng Guo, Yixing Fan, and Xueqi Cheng(参考訳) Fact validation (FV) は、ウィキペディアのような信頼できるコーパスから複数の明らかな文を用いてクレームを検証することを目的とした課題である。 既存のアプローチのほとんどは、文書検索、文検索、クレーム検証を含む3段階のパイプラインフレームワークに従っている。 最初の2ステップによって提供される高品質な証拠は、最終段階における効果的な推論の基礎である。 重要であるにもかかわらず、高品質な証拠はfvの既存の作品によって研究されることはほとんどなく、それらはしばしばオフ・ザ・棚のモデルを採用し、関連する文書や文を「インデックス・レトリーブ・ザ・ランク」の方法で取り出す。 この古典的アプローチには、次のような明確な欠点がある。 一 大規模な文書インデックス及び複雑な検索プロセスが必要で、メモリ及び計算上のオーバーヘッドがかなり大きいこと。 二 独立スコアリングパラダイムは、ランキングにおける文書及び文間の相互作用を捉えない。 三 確定した文数を選択して最終証拠集合を形成すること。 本研究では,証明文の識別子だけでなく,文書のタイトルを生成する生成的手法で証拠を検索するシステムであるgereを提案する。 これにより、上記の技術的問題を緩和できます。 一 文書インデックスを廃止し、重格付け処理を軽量生成工程に置き換えたことにより、メモリ及び計算コストが大幅に削減される。 二 文書間の依存関係と文間の依存関係を、逐次生成により取得することができること。 三 生成的定式化により、各クレームに関する正確な証拠の集合を動的に選択することができる。 FEVERデータセットの実験結果は、GEREが時間効率とメモリ効率の両方で最先端のベースラインを大幅に改善したことを示している。

Fact verification (FV) is a challenging task which aims to verify a claim using multiple evidential sentences from trustworthy corpora, e.g., Wikipedia. Most existing approaches follow a three-step pipeline framework, including document retrieval, sentence retrieval and claim verification. High-quality evidences provided by the first two steps are the foundation of the effective reasoning in the last step. Despite being important, high-quality evidences are rarely studied by existing works for FV, which often adopt the off-the-shelf models to retrieve relevant documents and sentences in an "index-retrieve-then- rank" fashion. This classical approach has clear drawbacks as follows: i) a large document index as well as a complicated search process is required, leading to considerable memory and computational overhead; ii) independent scoring paradigms fail to capture the interactions among documents and sentences in ranking; iii) a fixed number of sentences are selected to form the final evidence set. In this work, we propose GERE, the first system that retrieves evidences in a generative fashion, i.e., generating the document titles as well as evidence sentence identifiers. This enables us to mitigate the aforementioned technical issues since: i) the memory and computational cost is greatly reduced because the document index is eliminated and the heavy ranking process is replaced by a light generative process; ii) the dependency between documents and that between sentences could be captured via sequential generation process; iii) the generative formulation allows us to dynamically select a precise set of relevant evidences for each claim. The experimental results on the FEVER dataset show that GERE achieves significant improvements over the state-of-the-art baselines, with both time-efficiency and memory-efficiency.
翻訳日:2022-04-15 11:46:19 公開日:2022-04-14
# 時間的集合予測のための進化的および定常的ユーザ嗜好のモデル化

Modelling Evolutionary and Stationary User Preferences for Temporal Sets Prediction ( http://arxiv.org/abs/2204.05490v3 )

ライセンス: Link先を確認
Le Yu, Zihang Liu, Tongyu Zhu, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 各集合がタイムスタンプに関連付けられ、任意の数の要素を含む集合列が与えられたとき、時間集合予測のタスクは、次の集合の要素を予測することを目的としている。 時間集合予測のための従来の研究は、主にユーザーの進化的嗜好を自身のシーケンスから学習することによって捉えている。 洞察力はあるが、我々はそう主張する。 1) 異なるユーザのシーケンスに潜む協調信号は必須であるが, 利用されていない。 2)既存手法では考慮できないが,利用者は定常的な嗜好を示す傾向にある。 そこで本研究では,すべてのユーザ・セット間インタラクションを時系列的に配置し,各ユーザ・セット間インタラクションを学習することにより,まず普遍的なシーケンスを構築する時間的集合予測のための,ユーザの進化的選好と定常的選好の両方をモデル化する統合学習フレームワークを提案する。 特に,ユーザ・セット間のインタラクション毎に,まず,ユーザの時間発展的嗜好を追跡する進化的ユーザ嗜好モデリングコンポーネントをデザインし,異なるユーザ間の潜在協調信号を活用した。 このコンポーネントは、関連するユーザと要素のメモリを格納するメモリバンクを保持し、現在のエンコードされたメッセージと過去の記憶に基づいて、メモリを継続的に更新する。 次に,ユーザ嗜好モデリングモジュールを考案し,ユーザと要素の埋め込みのガイダンスを用いて,前回インタラクションした要素をデュアルパースペクティブから適応的に集約する履歴シーケンスに従って,各ユーザのパーソナライズされた特性を検出する。 最後に、モデル効率を向上させるためのセットバッチアルゴリズムを開発し、時間一貫性のあるバッチを事前に生成し、平均3.5倍のトレーニングスピードアップを達成する。 実世界のデータセットに関する実験は、このアプローチの有効性と優れた解釈性を示している。

Given a sequence of sets, where each set is associated with a timestamp and contains an arbitrary number of elements, the task of temporal sets prediction aims to predict the elements in the subsequent set. Previous studies for temporal sets prediction mainly capture each user's evolutionary preference by learning from his/her own sequence. Although insightful, we argue that: 1) the collaborative signals latent in different users' sequences are essential but have not been exploited; 2) users also tend to show stationary preferences while existing methods fail to consider. To this end, we propose an integrated learning framework to model both the evolutionary and the stationary preferences of users for temporal sets prediction, which first constructs a universal sequence by chronologically arranging all the user-set interactions, and then learns on each user-set interaction. In particular, for each user-set interaction, we first design an evolutionary user preference modelling component to track the user's time-evolving preference and exploit the latent collaborative signals among different users. This component maintains a memory bank to store memories of the related user and elements, and continuously updates their memories based on the currently encoded messages and the past memories. Then, we devise a stationary user preference modelling module to discover each user's personalized characteristics according to the historical sequence, which adaptively aggregates the previously interacted elements from dual perspectives with the guidance of the user's and elements' embeddings. Finally, we develop a set-batch algorithm to improve the model efficiency, which can create time-consistent batches in advance and achieve 3.5x training speedups on average. Experiments on real-world datasets demonstrate the effectiveness and good interpretability of our approach.
翻訳日:2022-04-15 11:45:50 公開日:2022-04-14
# FederatedScope-GNN:F ederated Graph Learningのための統一的で包括的で効率的なパッケージを目指して

FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning ( http://arxiv.org/abs/2204.05562v3 )

ライセンス: Link先を確認
Zhen Wang, Weirui Kuang, Yuexiang Xie, Liuyi Yao, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 連邦学習(FL)の驚くべき発展は、コンピュータビジョンと自然言語処理の分野における様々なタスクに恩恵をもたらし、TFFやFATEといった既存のフレームワークは、現実世界のアプリケーションでデプロイを容易にした。 しかし,FGL(Federated Graph Learning)は,グラフデータが広く普及しているにもかかわらず,その特徴や要件から十分にサポートされていない。 fgl関連フレームワークの欠如は、再現可能な研究と実際のアプリケーションへのデプロイを達成する努力を増加させる。 そこで本稿では,この強い需要に動機づけられて,まず,使いやすいfglパッケージを作成する際の課題について論じるとともに,(1)fglアルゴリズムのモジュール化と表現のための統一的なビューを提供するfs-g(package federatedscope-gnn), (2)アウト・オブ・ボックスのfgl機能のための包括的なdatazooとmodelzoo,(3)効率的なモデル自動チューニングコンポーネント,(4)既製のプライバシー攻撃と防御能力を提供する。 我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。 さらに、実世界のEコマースシナリオでFGLアプリケーションを提供するためにFS-Gを使用します。 我々は、FederatedScopeのサブモジュールとしてFS-Gをhttps://github.com/a libaba/FederatedScop eで公開し、FGLの研究を促進するとともに、専用のパッケージがないため、そうでなければ不可能な幅広いアプリケーションを可能にする。

The incredible development of federated learning (FL) has benefited various tasks in the domains of computer vision and natural language processing, and the existing frameworks such as TFF and FATE has made the deployment easy in real-world applications. However, federated graph learning (FGL), even though graph data are prevalent, has not been well supported due to its unique characteristics and requirements. The lack of FGL-related framework increases the efforts for accomplishing reproducible research and deploying in real-world applications. Motivated by such strong demand, in this paper, we first discuss the challenges in creating an easy-to-use FGL package and accordingly present our implemented package FederatedScope-GNN (FS-G), which provides (1) a unified view for modularizing and expressing FGL algorithms; (2) comprehensive DataZoo and ModelZoo for out-of-the-box FGL capability; (3) an efficient model auto-tuning component; and (4) off-the-shelf privacy attack and defense abilities. We validate the effectiveness of FS-G by conducting extensive experiments, which simultaneously gains many valuable insights about FGL for the community. Moreover, we employ FS-G to serve the FGL application in real-world E-commerce scenarios, where the attained improvements indicate great potential business benefits. We publicly release FS-G, as submodules of FederatedScope, at https://github.com/a libaba/FederatedScop e to promote FGL's research and enable broad applications that would otherwise be infeasible due to the lack of a dedicated package.
翻訳日:2022-04-15 11:45:21 公開日:2022-04-14