このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220411となっている論文です。

PDF登録状況(公開日: 20220411)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 内部積アレーの動作低減と最小接続による乗算器 [全文訳有]

Multiplier with Reduced Activities and Minimized Interconnect for Inner Product Arrays ( http://arxiv.org/abs/2204.09515v1 )

ライセンス: CC0 1.0
Muhammad Usman, Jeong-A Lee and Milos D. Ercegovac(参考訳) オンライン桁-シリアル算術に基づいて,アクティビティの削減と相互接続の最小化が可能なパイプライン乗算器を提案する。 作業精度は、$p<n$ bits が $n$ bits の積を計算するために使われるように切り詰められ、面積と電力が大幅に節約される。 桁スライスは入力に応じて可変精度に従って$p$まで増加し、エラープロファイルに従って減少する。 パイプライン化は高いスループットと低レイテンシを実現するために行われており、計算集約的な内部製品に望ましい。 提案した設計の合成結果を,非ピペリン型オンライン乗算器,パイプライン型オンライン乗算器,完全作業精度,従来のシリアル並列および配列乗算器と比較した。 8,16,24$,32$bitの精度で、提案されている低電力パイプライン設計は、作業精度の切り込みのないパイプライン化されたオンライン乗算器と比較して、それぞれ3,8\%$と4,4\%の電力と面積の削減を示す。

We present a pipelined multiplier with reduced activities and minimized interconnect based on online digit-serial arithmetic. The working precision has been truncated such that $p<n$ bits are used to compute $n$ bits product, resulting in significant savings in area and power. The digit slices follow variable precision according to input, increasing upto $p$ and then decreases according to the error profile. Pipelining has been done to achieve high throughput and low latency which is desirable for compute intensive inner products. Synthesis results of the proposed designs have been presented and compared with the non-pipelined online multiplier, pipelined online multiplier with full working precision and conventional serial-parallel and array multipliers. For $8, 16, 24$ and $32$ bit precision, the proposed low power pipelined design show upto $38\%$ and $44\%$ reduction in power and area respectively compared to the pipelined online multiplier without working precision truncation.
翻訳日:2022-04-24 18:10:25 公開日:2022-04-11
# (参考訳) 言語モデルはどの程度保守的か? 性中立代名詞の導入に適応する [全文訳有]

How Conservative are Language Models? Adapting to the Introduction of Gender-Neutral Pronouns ( http://arxiv.org/abs/2204.10281v1 )

ライセンス: CC BY 4.0
Stephanie Brandl, Ruixiang Cui, Anders S{\o}gaard(参考訳) 性中立代名詞は最近多くの言語で導入されている。 a)非バイナリの人々を含み、 b) 一般特異点として。 最近の精神言語学の結果から、性中立代名詞(スウェーデン語)は人間の処理困難とは関係がないことが示唆されている。 これは、自動処理とは対照的である。 デンマーク語、英語、スウェーデン語のジェンダーニュートラル代名詞は、より難易度が高く、注意パターンが分散し、下流のパフォーマンスが悪化していることを示す。 このような言語モデルにおける保守性は、性中立代名詞の広範な採用を制限し、それゆえ解決しなければならないと主張する。

Gender-neutral pronouns have recently been introduced in many languages to a) include non-binary people and b) as a generic singular. Recent results from psycho-linguistics suggest that gender-neutral pronouns (in Swedish) are not associated with human processing difficulties. This, we show, is in sharp contrast with automated processing. We show that gender-neutral pronouns in Danish, English, and Swedish are associated with higher perplexity, more dispersed attention patterns, and worse downstream performance. We argue that such conservativity in language models may limit widespread adoption of gender-neutral pronouns and must therefore be resolved.
翻訳日:2022-04-24 18:02:11 公開日:2022-04-11
# (参考訳) 深層学習に基づく3次元患者特異的流体力学のための代理モデル [全文訳有]

Deep learning-based surrogate model for 3-D patient-specific computational fluid dynamics ( http://arxiv.org/abs/2204.08939v1 )

ライセンス: CC BY 4.0
Pan Du, Xiaozhi Zhu, Jian-Xun Wang(参考訳) 最適化と不確かさの定量化は、計算の血行動態においてますます重要な役割を担っている。 しかし,特に実世界の複雑な3D患者特有の形状に関して,原理モデリングや古典的数値手法に基づく既存手法は重大な課題に直面している。 まず、任意に複雑な3次元幾何学の入力空間をパラメータ化することは、非常に難しい。 第二に、このプロセスは、しばしば大規模なフォワードシミュレーションを伴い、非常に計算的に要求されるか、あるいは不可能である。 本稿では,これらの課題に対処し,迅速な血行動態予測を可能にするための,新しい深層学習サーロゲートモデリングソリューションを提案する。 具体的には,3次元患者特異的な形状の統計的生成モデルを開発した。 幾何学的モーフィングとスケーラブルな形状合成を統計的に可能にするために教師なし形状対応解を用いる。 さらに、自動メッシュ、境界設定、シミュレーション、後処理による自動データ生成のためのシミュレーションルーチンを開発した。 幾何学的入力を潜伏空間内のヘモダイナミックス予測にマッピングするために,効率的な教師付き学習ソリューションを提案する。 大動脈血流の数値的研究を行い,提案手法の有効性と有用性を示す。

Optimization and uncertainty quantification have been playing an increasingly important role in computational hemodynamics. However, existing methods based on principled modeling and classic numerical techniques have faced significant challenges, particularly when it comes to complex 3D patient-specific shapes in the real world. First, it is notoriously challenging to parameterize the input space of arbitrarily complex 3-D geometries. Second, the process often involves massive forward simulations, which are extremely computationally demanding or even infeasible. We propose a novel deep learning surrogate modeling solution to address these challenges and enable rapid hemodynamic predictions. Specifically, a statistical generative model for 3-D patient-specific shapes is developed based on a small set of baseline patient-specific geometries. An unsupervised shape correspondence solution is used to enable geometric morphing and scalable shape synthesis statistically. Moreover, a simulation routine is developed for automatic data generation by automatic meshing, boundary setting, simulation, and post-processing. An efficient supervised learning solution is proposed to map the geometric inputs to the hemodynamics predictions in latent spaces. Numerical studies on aortic flows are conducted to demonstrate the effectiveness and merit of the proposed techniques.
翻訳日:2022-04-24 17:53:51 公開日:2022-04-11
# (参考訳) ニューラル演算子とオートエンコーダアーキテクチャを用いた二相構造進化の学習 [全文訳有]

Learning two-phase microstructure evolution using neural operators and autoencoder architectures ( http://arxiv.org/abs/2204.07230v1 )

ライセンス: CC BY 4.0
Vivek Oommen, Khemraj Shukla, Somdatta Goswami, Remi Dingreville, George Em Karniadakis(参考訳) 位相場モデリングは、二相混合物のスピノダル分解などにおける物質の進化ダイナミクスを捉えるための有効なメソスケール手法である。 しかし、高忠実な位相場モデルの精度は相当な計算コストで得られる。 したがって、材料の最適化や設計などの計算課税過程におけるコストを軽減するために、高速で一般化可能なサーロゲートモデルが必要である。 鋭い位相境界の存在によって引き起こされる物理的現象の本質的な不連続性は、サーロゲートモデルの訓練を煩雑なものにする。 我々は,畳み込み型オートエンコーダアーキテクチャとディープニューラル演算子(DeepONet)を統合し,二相混合系の動的進化を学習する新しいフレームワークを開発した。 畳み込みオートエンコーダを用いて, 低次元潜在空間における微細構造データのコンパクトな表現を行う。 DeepONetは2つのサブネットワークで構成され、1つは一定数のセンサー位置(ブランチネット)で入力関数を符号化するものであり、もう1つは出力関数の位置(トランクネット)を符号化するものである。 畳み込みオートエンコーダのデコーダ部分は、deeponet予測から時間発展する微細構造を再構築することができる。 その結果、効率良く正確な位相フィールドフレームワークが、他のニューラルネットワークベースのアプローチよりも優れており、同時にノイズの多い入力にも堅牢である。

Phase-field modeling is an effective mesoscale method for capturing the evolution dynamics of materials, e.g., in spinodal decomposition of a two-phase mixture. However, the accuracy of high-fidelity phase field models comes at a substantial computational cost. Hence, fast and generalizable surrogate models are needed to alleviate the cost in computationally taxing processes such as in optimization and design of materials. The intrinsic discontinuous nature of the physical phenomena incurred by the presence of sharp phase boundaries makes the training of the surrogate model cumbersome. We develop a new framework that integrates a convolutional autoencoder architecture with a deep neural operator (DeepONet) to learn the dynamic evolution of a two-phase mixture. We utilize the convolutional autoencoder to provide a compact representation of the microstructure data in a low-dimensional latent space. DeepONet, which consists of two sub-networks, one for encoding the input function at a fixed number of sensors locations (branch net) and another for encoding the locations for the output functions (trunk net), learns the mesoscale dynamics of the microstructure evolution in the latent space. The decoder part of the convolutional autoencoder can then reconstruct the time-evolved microstructure from the DeepONet predictions. The result is an efficient and accurate accelerated phase-field framework that outperforms other neural-network-based approaches while at the same time being robust to noisy inputs.
翻訳日:2022-04-24 17:41:15 公開日:2022-04-11
# a*の学習ヒューリスティック

Learning heuristics for A* ( http://arxiv.org/abs/2204.08938v1 )

ライセンス: Link先を確認
Danilo Numeroso, Davide Bacciu, Petar Veli\v{c}kovi\'c(参考訳) グラフにおける経路探索は、コンピュータ科学における最も研究されている問題の1つである。 この文脈では、探索アルゴリズムはより効率的なターゲットノード探索のためのヒューリスティックで拡張されることが多い。 本研究では,ニューラルネットワークの最近の進歩を組み合わせることで,グラフ上の経路探索問題に対する効率的なヒューリスティック関数を学習する。 トレーニング時にはマルチタスク学習を利用して,DijkstraのアルゴリズムとA*探索アルゴリズムの一貫性のあるヒューリスティック関数を共同で学習する。 推論時には、学習したヒューリスティックをa*アルゴリズムに挿入します。 その結果、学習したヒューリスティックス値上でa*を実行すると、dijkstraに比べてターゲットノード検索が大幅にスピードアップすることが示された。

Path finding in graphs is one of the most studied classes of problems in computer science. In this context, search algorithms are often extended with heuristics for a more efficient search of target nodes. In this work we combine recent advancements in Neural Algorithmic Reasoning to learn efficient heuristic functions for path finding problems on graphs. At training time, we exploit multi-task learning to learn jointly the Dijkstra's algorithm and a consistent heuristic function for the A* search algorithm. At inference time, we plug our learnt heuristics into the A* algorithm. Results show that running A* over the learnt heuristics value can greatly speed up target node searching compared to Dijkstra, while still finding minimal-cost paths.
翻訳日:2022-04-24 15:48:06 公開日:2022-04-11
# LRH-Net:低リソース心臓ネットワークのための多層知識蒸留手法

LRH-Net: A Multi-Level Knowledge Distillation Approach for Low-Resource Heart Network ( http://arxiv.org/abs/2204.08000v1 )

ライセンス: Link先を確認
Ekansh Chauhan, Swathi Guptha, Likith Reddy and Bapi Raju(参考訳) 心電図(ECG)は、心臓によって生じる電気活動を監視し、致命的な心血管疾患(CVD)を検出するために用いられる。 従来、正確な電気活動を捉えるために、臨床専門家は複数のリード心電図(典型的には12個の鉛)を使用する。 しかし近年では、大規模ディープラーニングモデルがこれらの病気の検出に使われている。 しかし、そのようなモデルは巨大なメモリや長い推測時間のような重い計算資源を必要とする。 これらの欠点を軽減するため,資源制約環境下でのECG異常を検出するために,低リソースハートネットワーク (LRH-Net) と呼ばれる低パラメータモデルを提案する。 その上に多段階の知識蒸留プロセスを用い,提案モデルの一般化性能を向上させる。 多段階の知識蒸留プロセスでは、複数のパラメータ(教師)モデルから少ない数のリードで訓練されたLRH-Netに知識を蒸留することで、性能ギャップを減少させる。 提案モデルは,制約付き入力を用いたphysionet-2020チャレンジデータセット上で評価される。 LRH-Netのパラメータは,CVDを検出するための教師モデルよりも106倍小さい。 LRH-Netの性能は3.2%まで向上し、推論時間は教師モデルに比べて75%も向上した。 計算およびパラメータ集約型ディープラーニング技術とは対照的に,提案手法では低リソースLRH-Netを用いてECGリードのサブセットを使用するため,エッジデバイスへの展開に適している。

An electrocardiogram (ECG) monitors the electrical activity generated by the heart and is used to detect fatal cardiovascular diseases (CVDs). Conventionally, to capture the precise electrical activity, clinical experts use multiple-lead ECGs (typically 12 leads). But in recent times, large-size deep learning models have been used to detect these diseases. However, such models require heavy compute resources like huge memory and long inference time. To alleviate these shortcomings, we propose a low-parameter model, named Low Resource Heart-Network (LRH-Net), which uses fewer leads to detect ECG anomalies in a resource-constrained environment. A multi-level knowledge distillation process is used on top of that to get better generalization performance on our proposed model. The multi-level knowledge distillation process distills the knowledge to LRH-Net trained on a reduced number of leads from higher parameter (teacher) models trained on multiple leads to reduce the performance gap. The proposed model is evaluated on the PhysioNet-2020 challenge dataset with constrained input. The parameters of the LRH-Net are 106x less than our teacher model for detecting CVDs. The performance of the LRH-Net was scaled up to 3.2% and the inference time scaled down by 75% compared to the teacher model. In contrast to the compute- and parameter-intensive deep learning techniques, the proposed methodology uses a subset of ECG leads using the low resource LRH-Net, making it eminently suitable for deployment on edge devices.
翻訳日:2022-04-24 15:47:54 公開日:2022-04-11
# 適応正則化による反復的ハードThresholding:Scrific ing Runtimeのないスペーサーソリューション

Iterative Hard Thresholding with Adaptive Regularization: Sparser Solutions Without Sacrificing Runtime ( http://arxiv.org/abs/2204.08274v1 )

ライセンス: Link先を確認
Kyriakos Axiotis and Maxim Sviridenko(参考訳) 条件数の関数として漸近的にスペーサー解を復元する反復型ハードしきい値付けアルゴリズム(IHT)の簡単な修正を提案する。 コンベックス関数 $f(x)$ を条件数 $\kappa$ を$x$ にすると、標準 IHT 保証は緩和された疎度 $O(s\kappa^2)$ の解であり、提案アルゴリズムは正規化 IHT でスパース性 $O(s\kappa)$ の解を返す。 このアルゴリズムはarhtよりも大幅に改善され、またsparsity $o(s\kappa)$の解も発見される。各イテレーションで再最適化を必要とせず、決定論的であり、最適な解値$f(x^*)$ や最適なsparsity level $s$ の知識を必要としない。 我々の主要な技術ツールは適応正規化フレームワークであり、アルゴリズムはスペーサー解への収束を可能にする$\ell_2$正規化項の重みを徐々に学習する。 また、このフレームワークを低ランク最適化に適用し、最もよく知られた条件数依存性を$\kappa^2$から$\kappa$へ同様の改善を達成する。

We propose a simple modification to the iterative hard thresholding (IHT) algorithm, which recovers asymptotically sparser solutions as a function of the condition number. When aiming to minimize a convex function $f(x)$ with condition number $\kappa$ subject to $x$ being an $s$-sparse vector, the standard IHT guarantee is a solution with relaxed sparsity $O(s\kappa^2)$, while our proposed algorithm, regularized IHT, returns a solution with sparsity $O(s\kappa)$. Our algorithm significantly improves over ARHT which also finds a solution of sparsity $O(s\kappa)$, as it does not require re-optimization in each iteration (and so is much faster), is deterministic, and does not require knowledge of the optimal solution value $f(x^*)$ or the optimal sparsity level $s$. Our main technical tool is an adaptive regularization framework, in which the algorithm progressively learns the weights of an $\ell_2$ regularization term that will allow convergence to sparser solutions. We also apply this framework to low rank optimization, where we achieve a similar improvement of the best known condition number dependence from $\kappa^2$ to $\kappa$.
翻訳日:2022-04-24 15:46:33 公開日:2022-04-11
# SuperpixelGridCut, SuperpixelGridMean and SuperpixelGridMix Data Augmentation

SuperpixelGridCut, SuperpixelGridMean and SuperpixelGridMix Data Augmentation ( http://arxiv.org/abs/2204.08458v1 )

ライセンス: Link先を確認
Karim Hammoudi and Adnane Cabani and Bouthaina Slika and Halim Benhabiles and Fadi Dornaika and Mahmoud Melkemi(参考訳) 不規則なスーパーピクセル分解に基づく新しいデータ拡張手法を提案する。 superpixelgridmasksと呼ばれるこのアプローチは、機械学習に関連した分析アーキテクチャのトレーニング段階に必要なオリジナルイメージデータセットを、パフォーマンス向上のために拡張することができる。 SuperpixelGridCut、SuperpixelGridMean、SuperpixelGridMixの3種類が紹介される。 これらのグリッドベースの手法は,情報ドロップと融合を利用して画像変換を行う。 様々な画像分類モデルとデータセットを用いた大規模な実験により,本手法によりベースライン性能が著しく向上することを示した。 比較研究は、我々の手法が他のデータ拡張のパフォーマンスを超越できることも示している。 画像認識データセット上で得られた実験結果は,これら新しい手法の有効性を示す。 SuperpixelGridCut, SuperpixelGridMean, SuperpixelGridMixのコードはhttps://github.com/h ammoudiproject/Super pixelGridMasksで公開されている。

A novel approach of data augmentation based on irregular superpixel decomposition is proposed. This approach called SuperpixelGridMasks permits to extend original image datasets that are required by training stages of machine learning-related analysis architectures towards increasing their performances. Three variants named SuperpixelGridCut, SuperpixelGridMean and SuperpixelGridMix are presented. These grid-based methods produce a new style of image transformations using the dropping and fusing of information. Extensive experiments using various image classification models and datasets show that baseline performances can be significantly outperformed using our methods. The comparative study also shows that our methods can overpass the performances of other data augmentations. Experimental results obtained over image recognition datasets of varied natures show the efficiency of these new methods. SuperpixelGridCut, SuperpixelGridMean and SuperpixelGridMix codes are publicly available at https://github.com/h ammoudiproject/Super pixelGridMasks
翻訳日:2022-04-24 15:29:05 公開日:2022-04-11
# 医師と患者との対話による説明可能な診断とxai評価

Doctor XAvIer: Explainable Diagnosis using Physician-Patient Dialogues and XAI Evaluation ( http://arxiv.org/abs/2204.10178v1 )

ライセンス: Link先を確認
Hillary Ngai, Frank Rudzicz(参考訳) 今回我々は,書き起こされた患者と医師の対話から関連する臨床データを抽出するbertベースの診断システムであるdoctor xavierを紹介し,特徴帰属法を用いて予測を説明する。 本稿では,特徴属性降下(FAD)曲線とその正規化領域(N-AUC)について,特徴帰属法の性能プロットと評価基準を提案する。 FAD曲線解析は、診断分類の説明において、積分勾配がシェープリー値より優れていることを示している。 医師のXAvIerは、名前付きエンティティ認識と症状関連分類で0.97F1スコア、診断分類で0.91F1スコアでベースラインを上回っている。

We introduce Doctor XAvIer, a BERT-based diagnostic system that extracts relevant clinical data from transcribed patient-doctor dialogues and explains predictions using feature attribution methods. We present a novel performance plot and evaluation metric for feature attribution methods: Feature Attribution Dropping (FAD) curve and its Normalized Area Under the Curve (N-AUC). FAD curve analysis shows that integrated gradients outperforms Shapley values in explaining diagnosis classification. Doctor XAvIer outperforms the baseline with 0.97 F1-score in named entity recognition and symptom pertinence classification and 0.91 F1-score in diagnosis classification.
翻訳日:2022-04-24 15:28:30 公開日:2022-04-11
# (参考訳) 個々の新生児データを用いたアンサンブル学習による発作検出 [全文訳有]

Ensemble learning using individual neonatal data for seizure detection ( http://arxiv.org/abs/2204.07043v1 )

ライセンス: CC BY 4.0
Ana Borovac, Steinn Gudmundsson, Gardar Thorvardsson, Saeed M. Moghadam, P\"aivi Nevalainen, Nathan Stevenson, Sampsa Vanhatalo, Thomas P. Runarsson(参考訳) 機関間の医療データの共有は、データ保護法や機関内の公式な手続きのため、実際には困難である。 したがって、既存のアルゴリズムのほとんどは、予測精度に有害な比較的小さな脳波(eeg)データセットで訓練されている。 本研究では、公開データセットを個々の機関におけるデータを表す非結合集合に分割することにより、データを共有できない場合をシミュレートする。 各機関で(ローカルな)検出器を訓練し、個々の予測を1つの最終予測に集約する。 4つの集計方式、すなわち多数票、平均、重み付け平均、ダウィド・スキーン法を比較した。 このアプローチは、機関間で異なる検出器アーキテクチャを可能にする。 この手法はEEGチャネルのサブセットのみを用いて独立したデータセット上で検証された。 アンサンブルは、各機関で十分な量のデータが利用できる場合、すべてのデータで訓練された単一の検出器に匹敵する精度に達する。 重み付け平均凝集方式は,全データで訓練された単一検出器の性能にローカル検出器が接近した場合,dawid-skene法よりもわずかに優れていた。

Sharing medical data between institutions is difficult in practice due to data protection laws and official procedures within institutions. Therefore, most existing algorithms are trained on relatively small electroencephalogram (EEG) data sets which is likely to be detrimental to prediction accuracy. In this work, we simulate a case when the data can not be shared by splitting the publicly available data set into disjoint sets representing data in individual institutions. We propose to train a (local) detector in each institution and aggregate their individual predictions into one final prediction. Four aggregation schemes are compared, namely, the majority vote, the mean, the weighted mean and the Dawid-Skene method. The approach allows different detector architectures amongst the institutions. The method was validated on an independent data set using only a subset of EEG channels. The ensemble reaches accuracy comparable to a single detector trained on all the data when sufficient amount of data is available in each institution. The weighted mean aggregation scheme showed best overall performance, it was only marginally outperformed by the Dawid-Skene method when local detectors approach performance of a single detector trained on all available data.
翻訳日:2022-04-16 09:28:56 公開日:2022-04-11
# (参考訳) 蒸留・濾過・連成型集中訓練による生産連合語スポッティング [全文訳有]

Production federated keyword spotting via distillation, filtering, and joint federated-centralize d training ( http://arxiv.org/abs/2204.06322v1 )

ライセンス: CC BY 4.0
Andrew Hard, Kurt Partridge, Neng Chen, Sean Augenstein, Aishanee Shah, Hyun Jin Park, Alex Park, Sara Ng, Jessica Nguyen, Ignacio Lopez Moreno, Rajiv Mathews, Fran\c{c}oise Beaufays(参考訳) 我々は,実際のユーザデバイス上でのフェデレート学習を用いたキーワードスポッティングモデルを訓練し,電話での推論にモデルが配置された場合,大幅な改善が見られた。 デバイス上のトレーニングキャッシュに欠けているデータドメインを補償するために、統合フェデレーション集中トレーニングを採用した。 また, デバイス上での硬化ラベルの欠如から学習するために, ユーザフィードバック信号に基づく信頼度フィルタリング戦略を定式化した。 これらの技術は、オフライン評価における品質指標と、ライブa/b実験におけるユーザエクスペリエンス指標を大幅に改善するモデルを作成した。

We trained a keyword spotting model using federated learning on real user devices and observed significant improvements when the model was deployed for inference on phones. To compensate for data domains that are missing from on-device training caches, we employed joint federated-centralize d training. And to learn in the absence of curated labels on-device, we formulated a confidence filtering strategy based on user-feedback signals for federated distillation. These techniques created models that significantly improved quality metrics in offline evaluations and user-experience metrics in live A/B experiments.
翻訳日:2022-04-15 00:24:48 公開日:2022-04-11
# (参考訳) 時空間深層学習による超音波せん断弾性イメージング [全文訳有]

Ultrasound Shear Wave Elasticity Imaging with Spatio-Temporal Deep Learning ( http://arxiv.org/abs/2204.05745v1 )

ライセンス: CC BY-SA 4.0
Maximilian Neidhardt, Marcel Bengs, Sarah Latus, Stefan Gerlach, Christian J. Cyron, Johanna Sprenger and Alexander Schlaefer(参考訳) 超音波せん断弾性イメージングは組織の弾性特性を定量化する貴重なツールである。 典型的には、せん断波速度を導出して弾性値にマッピングし、伝播せん断波の形状や押圧シーケンス特性などの情報を無視する。 超音波データから高速局所弾性推定のための3次元時空間CNNを提案する。 この手法は,微小局所領域におけるせん断波伝搬から弾性特性を取得することに基づく。 大規模なトレーニングデータセットは、17.42kPaから126.05kPaまでの異種ゼラチンファントムから様々なプッシュ位置を持つロボットで取得される。 その結果, 平均絶対誤差 5.01+-4.37 kPa を用いて, 画素単位で弾性特性を推定できることがわかった。 さらに,プッシュ位置に依存しない局所弾性を推定し,プッシュ領域内で正確な推定を行うこともできる。 埋め込み型ファントムでは,従来のせん断波法に比べて53.93%低いMAE (7.50 kPa) と85.24% (1.64 kPa) の背景を報告した。 提案手法は, 時空間サイズが小さい弾性特性の局所的推定を高速に行う。

Ultrasound shear wave elasticity imaging is a valuable tool for quantifying the elastic properties of tissue. Typically, the shear wave velocity is derived and mapped to an elasticity value, which neglects information such as the shape of the propagating shear wave or push sequence characteristics. We present 3D spatio-temporal CNNs for fast local elasticity estimation from ultrasound data. This approach is based on retrieving elastic properties from shear wave propagation within small local regions. A large training data set is acquired with a robot from homogeneous gelatin phantoms ranging from 17.42 kPa to 126.05 kPa with various push locations. The results show that our approach can estimate elastic properties on a pixelwise basis with a mean absolute error of 5.01+-4.37 kPa. Furthermore, we estimate local elasticity independent of the push location and can even perform accurate estimates inside the push region. For phantoms with embedded inclusions, we report a 53.93% lower MAE (7.50 kPa) and on the background of 85.24% (1.64 kPa) compared to a conventional shear wave method. Overall, our method offers fast local estimations of elastic properties with small spatio-temporal window sizes.
翻訳日:2022-04-14 08:06:27 公開日:2022-04-11
# (参考訳) データと画像の分類における従来の機械学習とディープラーニングの比較分析 [全文訳有]

Comparison Analysis of Traditional Machine Learning and Deep Learning Techniques for Data and Image Classification ( http://arxiv.org/abs/2204.05983v1 )

ライセンス: CC BY 4.0
Efstathios Karypidis, Stylianos G. Mouslech, Kassiani Skoulariki, Alexandros Gazis(参考訳) 本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。 まず,視覚単語モデルと深層畳み込みニューラルネットワーク(dcnn)の袋の理論的背景を紹介する。 次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。 第3に、前述の実装をベルギー交通標識データセットの修正版でテストするカスタムかつ初歩的なDCNNを紹介します。 本研究は,従来の機械学習手法と比較して,ハイパーパラメータがDCNNの精度に与える影響を示すものである。 テストが示すように、提案するソリューションは既存のdcnnsアーキテクチャと同じような、場合によっては優れた結果を得ることができます。 最後に、この記事の技術的メリットは、より効率的なアーキテクチャを基本的なタスクに活用するための道を開くことができる、計算的にシンプルなDCNNアーキテクチャである。

The purpose of the study is to analyse and compare the most common machine learning and deep learning techniques used for computer vision 2D object classification tasks. Firstly, we will present the theoretical background of the Bag of Visual words model and Deep Convolutional Neural Networks (DCNN). Secondly, we will implement a Bag of Visual Words model, the VGG16 CNN Architecture. Thirdly, we will present our custom and novice DCNN in which we test the aforementioned implementations on a modified version of the Belgium Traffic Sign dataset. Our results showcase the effects of hyperparameters on traditional machine learning and the advantage in terms of accuracy of DCNNs compared to classical machine learning methods. As our tests indicate, our proposed solution can achieve similar - and in some cases better - results than existing DCNNs architectures. Finally, the technical merit of this article lies in the presented computationally simpler DCNN architecture, which we believe can pave the way towards using more efficient architectures for basic tasks.
翻訳日:2022-04-14 07:50:08 公開日:2022-04-11
# (参考訳) 変分ヘテロセダスティック変動性モデル [全文訳有]

Variational Heteroscedastic Volatility Model ( http://arxiv.org/abs/2204.05806v1 )

ライセンス: CC BY 4.0
Zexuan Yin, Paolo Barucca(参考訳) 本稿では,多変量金融時系列のヘテロシドスティック動作をモデル化可能なエンドツーエンドニューラルネットワークアーキテクチャである変分的ヘテロシドスティックボラティリティモデル(vhvm)を提案する。 VHVMは、シーケンシャルモデリングと表現学習という、ディープラーニングのいくつかの分野における最近の進歩を活用して、異なるアセットリターン間の複雑な時間ダイナミクスをモデル化している。 コアとなるVHVMは、アセット間の関係をキャプチャする変分オートエンコーダと、依存関係の時間進化をモデル化するリカレントニューラルネットワークで構成されている。 VHVMの出力は、共分散行列の形での時間変化条件の揮発性である。 本稿では,多変量外貨(FX)データセットを用いた一般化自己回帰条件整合性(GARCH)や確率ボラティリティ(SV)モデルなどの既存手法に対するVHVMの有効性を示す。

We propose Variational Heteroscedastic Volatility Model (VHVM) -- an end-to-end neural network architecture capable of modelling heteroscedastic behaviour in multivariate financial time series. VHVM leverages recent advances in several areas of deep learning, namely sequential modelling and representation learning, to model complex temporal dynamics between different asset returns. At its core, VHVM consists of a variational autoencoder to capture relationships between assets, and a recurrent neural network to model the time-evolution of these dependencies. The outputs of VHVM are time-varying conditional volatilities in the form of covariance matrices. We demonstrate the effectiveness of VHVM against existing methods such as Generalised AutoRegressive Conditional Heteroscedasticity (GARCH) and Stochastic Volatility (SV) models on a wide range of multivariate foreign currency (FX) datasets.
翻訳日:2022-04-14 07:35:48 公開日:2022-04-11
# (参考訳) グラフ順序付けアテンションネットワーク [全文訳有]

Graph Ordering Attention Networks ( http://arxiv.org/abs/2204.05351v1 )

ライセンス: CC BY 4.0
Michail Chatzianastasis, Johannes F. Lutzeyer, George Dasoulas, Michalis Vazirgiannis(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに関わる多くの問題に成功し、最先端のパフォーマンスを実現している。 GNNは一般的にメッセージパッシング方式を採用しており、各ノードは置換不変集約関数を使用して近隣の情報を集約する。 平均や和の集計関数のような標準的なよく検討された選択は、隣同士の相互作用を捉えることができないため、限られた能力を持つ。 本研究では,これらの相互作用を,特に相乗的情報を含む情報理論フレームワークを用いて形式化する。 この定義に基づいて、近隣のノード間の相互作用をキャプチャする新しいGNNコンポーネントである、グラフ順序付け注意層(GOAT)を導入する。 これは、アテンションメカニズムを介してローカルノードの順序付けを学習し、リカレントニューラルネットワークアグリゲータを使用して順序付けられた表現を処理することで達成される。 この設計により,提案するヤギ層の順列同分散を維持しつつ,順列感応アグリゲータを利用することができる。 GOATモデルは、ノードの相互中心性や有効サイズといった複雑な情報をキャプチャするグラフメトリクスのモデリングにおいて、そのパフォーマンスが向上していることを示す。 実例では、いくつかの実世界のノード分類ベンチマークの成功により、その優れたモデリング能力が確認されている。

Graph Neural Networks (GNNs) have been successfully used in many problems involving graph-structured data, achieving state-of-the-art performance. GNNs typically employ a message-passing scheme, in which every node aggregates information from its neighbors using a permutation-invarian t aggregation function. Standard well-examined choices such as the mean or sum aggregation functions have limited capabilities, as they are not able to capture interactions among neighbors. In this work, we formalize these interactions using an information-theoreti c framework that notably includes synergistic information. Driven by this definition, we introduce the Graph Ordering Attention (GOAT) layer, a novel GNN component that captures interactions between nodes in a neighborhood. This is achieved by learning local node orderings via an attention mechanism and processing the ordered representations using a recurrent neural network aggregator. This design allows us to make use of a permutation-sensitiv e aggregator while maintaining the permutation-equivari ance of the proposed GOAT layer. The GOAT model demonstrates its increased performance in modeling graph metrics that capture complex information, such as the betweenness centrality and the effective size of a node. In practical use-cases, its superior modeling capability is confirmed through its success in several real-world node classification benchmarks.
翻訳日:2022-04-14 07:13:49 公開日:2022-04-11
# (参考訳) panoptic, instance and semantic relations: panoptic segmentationを強化する関係コンテキストエンコーダ [全文訳有]

Panoptic, Instance and Semantic Relations: A Relational Context Encoder to Enhance Panoptic Segmentation ( http://arxiv.org/abs/2204.05370v1 )

ライセンス: CC BY 4.0
Shubhankar Borse, Hyojin Park, Hong Cai, Debasmit Das, Risheek Garrepalli, Fatih Porikli(参考訳) 本稿では,汎視的セグメンテーションのためのセマンティックコンテキストとインスタンスコンテキストを統合する新しいフレームワークを提案する。 既存の作業では、共有バックボーンを使用して(車両などの可算クラス)と(道路のような非可算クラス)の両方の特徴を抽出することが一般的である。 しかし、この手法は、視覚的理解とセグメンテーション性能を高めるために使用できる、それらの間のリッチな関係を捉えることができない。 この欠点に対処するために,このようなコンテキストを活用するための新しいPanoptic, Instance, and Semantic Relations (PISR) モジュールを提案する。 まず、意味クラスと予測インスタンスの重要な特徴を要約するために、panopticエンコーディングを生成します。 その後、Panoptic Relational Attention (PRA)モジュールが、背骨からのエンコーディングとグローバルな特徴マップに適用される。 キャプチャーするフィーチャーマップを生成する 1)意味クラスとインスタンス間の関係 2)これらの汎視圏と空間的特徴の関係。 さらにpisrは、より重要なインスタンスにフォーカスするように自動的に学習し、リレーショナルアテンションモジュールで使われるインスタンスの数に堅牢になる。 さらに、PISRは、既存の任意の汎視的セグメンテーションアーキテクチャに適用できる一般的なモジュールである。 Cityscapes、COCO、ADE20Kといった汎視的セグメンテーションベンチマークの広範な評価を通じて、PISRは既存のアプローチよりも大幅に改善されていることを示す。

This paper presents a novel framework to integrate both semantic and instance contexts for panoptic segmentation. In existing works, it is common to use a shared backbone to extract features for both things (countable classes such as vehicles) and stuff (uncountable classes such as roads). This, however, fails to capture the rich relations among them, which can be utilized to enhance visual understanding and segmentation performance. To address this shortcoming, we propose a novel Panoptic, Instance, and Semantic Relations (PISR) module to exploit such contexts. First, we generate panoptic encodings to summarize key features of the semantic classes and predicted instances. A Panoptic Relational Attention (PRA) module is then applied to the encodings and the global feature map from the backbone. It produces a feature map that captures 1) the relations across semantic classes and instances and 2) the relations between these panoptic categories and spatial features. PISR also automatically learns to focus on the more important instances, making it robust to the number of instances used in the relational attention module. Moreover, PISR is a general module that can be applied to any existing panoptic segmentation architecture. Through extensive evaluations on panoptic segmentation benchmarks like Cityscapes, COCO, and ADE20K, we show that PISR attains considerable improvements over existing approaches.
翻訳日:2022-04-14 06:56:54 公開日:2022-04-11
# (参考訳) sar-optical representation learningのための自己教師付き視覚トランスフォーマ [全文訳有]

Self-supervised Vision Transformers for Joint SAR-optical Representation Learning ( http://arxiv.org/abs/2204.05381v1 )

ライセンス: CC BY 4.0
Yi Wang, Conrad M Albrecht, Xiao Xiang Zhu(参考訳) 自己教師付き学習(SSL)は、人間のアノテーションを使わずにタスク非依存の表現を学習できることから、リモートセンシングと地球観測に大きな関心を集めている。 既存のSSLの多くは、ConvNetのバックボーンを利用しており、単一のモダリティに重点を置いているが、我々は共同でSAR-光表現学習を行うためのビジョントランスフォーマー(ViT)の可能性を探る。 入力画像の2つの拡張ビューから知識を蒸留する最先端sslアルゴリズムであるdinoに基づいて,全チャネルを統一入力に結合することでsarと光学画像を統合する。 その後、データ拡張戦略として、1つのモードのチャネルをランダムにマスキングする。 トレーニング中、モデルは光のみ、SARのみ、およびSAR-光画像ペアに内部モードと内部モードの両方の表現を学習する。 BigEarthNet-MMデータセットを用いた実験結果は、ViTバックボーンと提案したマルチモーダルSSLアルゴリズムDINO-MMの両方の利点を示している。

Self-supervised learning (SSL) has attracted much interest in remote sensing and earth observation due to its ability to learn task-agnostic representations without human annotation. While most of the existing SSL works in remote sensing utilize ConvNet backbones and focus on a single modality, we explore the potential of vision transformers (ViTs) for joint SAR-optical representation learning. Based on DINO, a state-of-the-art SSL algorithm that distills knowledge from two augmented views of an input image, we combine SAR and optical imagery by concatenating all channels to a unified input. Subsequently, we randomly mask out channels of one modality as a data augmentation strategy. While training, the model gets fed optical-only, SAR-only, and SAR-optical image pairs learning both inner- and intra-modality representations. Experimental results employing the BigEarthNet-MM dataset demonstrate the benefits of both, the ViT backbones and the proposed multimodal SSL algorithm DINO-MM.
翻訳日:2022-04-14 06:38:54 公開日:2022-04-11
# (参考訳) ランダム類似性森林 [全文訳有]

Random Similarity Forests ( http://arxiv.org/abs/2204.05389v1 )

ライセンス: CC BY 4.0
Maciej Piernik, Dariusz Brzezinski, Pawel Zawadzki(参考訳) 人間とその周辺に関する豊富なデータ収集は、さまざまな分野で新しい機械学習アプリケーションを生み出している。 その結果、より頻繁に、分類器は数値データだけでなく複雑なデータオブジェクトを使って訓練される。 例えば、マルチオミクス分析では、数値記述を分布、時系列データ、離散シーケンス、グラフと組み合わせようとしている。 このような異なるドメインからのデータの統合には、データのいくつかを省略するか、異なるフォーマットの別々のモデルを作成するか、あるいは共有スケールとフォーマットに従うためにデータの一部を単純化する必要がある。 本稿では,各特徴の特徴を維持しつつ,任意のデータ型の特徴を持つデータセットを扱える分類法を提案する。 ランダム類似性フォレストと呼ばれるアルゴリズムは、ランダムフォレストの予測性能と類似性フォレストの柔軟性を組み合わせるために、複数の領域特異的距離尺度を用いる。 ランダム類似林はRandom Forestsの数値データと同等であり、複雑なデータドメインや混合データドメインのデータセットよりも優れていることを示す。 本研究では,高インパクトライフサイエンスプロジェクトにおいてユビキタス化が進んでいるマルチソースデータセットに対するランダム類似性森林の適用性に注目した。

The wealth of data being gathered about humans and their surroundings drives new machine learning applications in various fields. Consequently, more and more often, classifiers are trained using not only numerical data but also complex data objects. For example, multi-omics analyses attempt to combine numerical descriptions with distributions, time series data, discrete sequences, and graphs. Such integration of data from different domains requires either omitting some of the data, creating separate models for different formats, or simplifying some of the data to adhere to a shared scale and format, all of which can hinder predictive performance. In this paper, we propose a classification method capable of handling datasets with features of arbitrary data types while retaining each feature's characteristic. The proposed algorithm, called Random Similarity Forest, uses multiple domain-specific distance measures to combine the predictive performance of Random Forests with the flexibility of Similarity Forests. We show that Random Similarity Forests are on par with Random Forests on numerical data and outperform them on datasets from complex or mixed data domains. Our results highlight the applicability of Random Similarity Forests to noisy, multi-source datasets that are becoming ubiquitous in high-impact life science projects.
翻訳日:2022-04-14 06:30:11 公開日:2022-04-11
# (参考訳) 粗いスーパービジョンによるショット部分分割の改善 [全文訳有]

Improving Few-Shot Part Segmentation using Coarse Supervision ( http://arxiv.org/abs/2204.05393v1 )

ライセンス: CC BY 4.0
Oindrila Saha, Zezhou Cheng and Subhransu Maji(参考訳) パートセグメンテーションのためのディープネットワークのトレーニングにおける重要なボトルネックは、詳細なアノテーションを取得するコストである。 部分分割モデルを改善するために,いくつかのカテゴリで容易に利用できるフィギュアグラウンドマスクやキーポイント位置などの粗いラベルを利用するフレームワークを提案する。 重要な課題は、これらのアノテーションが異なるタスクと異なるラベルスタイルで収集され、簡単にパートラベルにマッピングできないことである。 この目的のために,ラベリングスタイルと部分セグメンテーションモデルとの依存関係を共同で学習し,多様なラベルの監督を活用できるようにする。 アプローチを評価するために,カリフォルニア工科大学の鳥とOIDエアクラフトのデータセットのベンチマークを開発した。 提案手法は,マルチタスク学習,半教師付き学習,およびスパーススーパービジョンを利用するために手作業で設計した損失関数に依存する競合手法に基づくベースラインよりも優れている。

A significant bottleneck in training deep networks for part segmentation is the cost of obtaining detailed annotations. We propose a framework to exploit coarse labels such as figure-ground masks and keypoint locations that are readily available for some categories to improve part segmentation models. A key challenge is that these annotations were collected for different tasks and with different labeling styles and cannot be readily mapped to the part labels. To this end, we propose to jointly learn the dependencies between labeling styles and the part segmentation model, allowing us to utilize supervision from diverse labels. To evaluate our approach we develop a benchmark on the Caltech-UCSD birds and OID Aircraft dataset. Our approach outperforms baselines based on multi-task learning, semi-supervised learning, and competitive methods relying on loss functions manually designed to exploit sparse-supervision.
翻訳日:2022-04-14 06:14:05 公開日:2022-04-11
# (参考訳) 音声認識のための統一音声テキスト事前学習 [全文訳有]

Unified Speech-Text Pre-training for Speech Translation and Recognition ( http://arxiv.org/abs/2204.05409v1 )

ライセンス: CC BY 4.0
Yun Tang, Hongyu Gong, Ning Dong, Changhan Wang, Wei-Ning Hsu, Jiatao Gu, Alexei Baevski, Xian Li, Abdelrahman Mohamed, Michael Auli, Juan Pino(参考訳) 音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。 提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。 自己教師付き音声サブタスクはラベルなし音声データを利用し、(自己)教師付きテキストからテキストサブタスクは豊富なテキストトレーニングデータを利用する。 2つの補助的教師付き音声タスクは、音声とテキストモデリング空間を統合するために含まれる。 我々の貢献は、テキストコーパスから言語情報を事前学習に組み込むことにある。 詳細な分析により、サブタスク間の学習の干渉が明らかになる。 音声翻訳と認識のための2つの事前学習構成をそれぞれ提示し、サブタスク干渉を軽減する。 提案手法は,音声とテキスト情報を一つのモデルに効果的に融合できることを示す。 must-c音声翻訳データセットと、librispeech音声認識タスクでwav2vec 2.0に匹敵するwersの技術上、1.7から2.3bleuの改善を達成している。

We describe a method to jointly pre-train speech and text in an encoder-decoder modeling framework for speech translation and recognition. The proposed method incorporates four self-supervised and supervised subtasks for cross modality learning. A self-supervised speech subtask leverages unlabelled speech data, and a (self-)supervised text to text subtask makes use of abundant text training data. Two auxiliary supervised speech tasks are included to unify speech and text modeling space. Our contribution lies in integrating linguistic information from the text corpus into the speech pre-training. Detailed analysis reveals learning interference among subtasks. Two pre-training configurations for speech translation and recognition, respectively, are presented to alleviate subtask interference. Our experiments show the proposed method can effectively fuse speech and text information into one model. It achieves between 1.7 and 2.3 BLEU improvement above the state of the art on the MuST-C speech translation dataset and comparable WERs to wav2vec 2.0 on the Librispeech speech recognition task.
翻訳日:2022-04-14 05:50:57 公開日:2022-04-11
# (参考訳) $\{\text{pf}\}^2\text{es}$: 未知制約下での多目的ベイズ最適化のための並列可能パレートフロンティアエントロピー探索 [全文訳有]

$\{\text{PF}\}^2\text{ES}$: Parallel Feasible Pareto Frontier Entropy Search for Multi-Objective Bayesian Optimization Under Unknown Constraints ( http://arxiv.org/abs/2204.05411v1 )

ライセンス: CC BY 4.0
Jixiang Qing, Henry B. Moss, Tom Dhaene, Ivo Couckuyt(参考訳) 本稿では,多目的ベイズ最適化のための新しい情報理論的獲得関数であるparallel feasible pareto frontier entropy search (\{\text{pf}\}^2$es)を提案する。 情報理論のアプローチは、常に最先端の最適化を提供するが、制約付き多目的最適化の文脈ではまだ広く使われていない。 候補評価と(実現可能な)パレートフロンティア間の相互情報を特徴付ける複雑さのため、既存のアプローチでは、その性能を著しく阻害する厳密な近似を採用する必要がある。 代わりに変動的下界を使用すると、$\{\text{PF}\}^2$ES は並列設定(最適化ステップごとに複数の評価を選択する必要がある)の相互情報の低コストかつ正確な推定を提供する。 また,提案する獲得関数は,他の多目的獲得関数との直接リンクを探索することで解釈できる。 我々は、合成および実生活問題に対して$\{\text{PF}\}^2$ESをベンチマークし、車両や電子フィルタの設計を含む実世界の問題に対して、バッチ最適化の競合性能を示す。

We present Parallel Feasible Pareto Frontier Entropy Search ($\{\text{PF}\}^2$ES) -- a novel information-theoreti c acquisition function for multi-objective Bayesian optimization. Although information-theoreti c approaches regularly provide state-of-the-art optimization, they are not yet widely used in the context of constrained multi-objective optimization. Due to the complexity of characterizing mutual information between candidate evaluations and (feasible) Pareto frontiers, existing approaches must employ severe approximations that significantly hamper their performance. By instead using a variational lower bound, $\{\text{PF}\}^2$ES provides a low cost and accurate estimate of the mutual information for the parallel setting (where multiple evaluations must be chosen for each optimization step). Moreover, we are able to interpret our proposed acquisition function by exploring direct links with other popular multi-objective acquisition functions. We benchmark $\{\text{PF}\}^2$ES across synthetic and real-life problems, demonstrating its competitive performance for batch optimization across synthetic and real-world problems including vehicle and electronic filter design.
翻訳日:2022-04-14 05:32:42 公開日:2022-04-11
# (参考訳) 耐久性制御によるビーム復号 [全文訳有]

Beam Decoding with Controlled Patience ( http://arxiv.org/abs/2204.05424v1 )

ライセンス: CC BY 4.0
Jungo Kasai, Keisuke Sakaguchi, Ronan Le Bras, Dragomir Radev, Yejin Choi, and Noah A. Smith(参考訳) ビーム検索によるテキスト生成は、幅広いアプリケーションで成功している。 ビーム復号の一般的な実装は、最初はヒューリスティックであり、時間ステップで既に完了したシーケンスのセットを保持し、このセットのサイズがビームサイズに達すると停止する。 我々は,この復号アルゴリズムの簡単な修正である忍耐係数を導入し,停止基準を一般化し,探索深度に柔軟性を提供する。 広範な実験結果から、忍耐因子は、ニューステキスト要約における強い事前学習モデルの復号化性能と、多様な言語ペアに対する機械翻訳性能を向上し、推論の遅さを無視できることが示されている。 このアプローチは1行のコードだけを変更して,任意の実装に簡単に組み込むことができます。

Text generation with beam search has proven successful in a wide range of applications. The commonly-used implementation of beam decoding follows a first come, first served heuristic: it keeps a set of already completed sequences over time steps and stops when the size of this set reaches the beam size. We introduce a patience factor, a simple modification to this decoding algorithm, that generalizes the stopping criterion and provides flexibility to the depth of search. Extensive empirical results demonstrate that the patience factor improves decoding performance of strong pretrained models on news text summarization and machine translation over diverse language pairs, with a negligible inference slowdown. Our approach only modifies one line of code and can be thus readily incorporated in any implementation.
翻訳日:2022-04-14 05:15:41 公開日:2022-04-11
# (参考訳) ProtoTEx: プロトタイプテンソルによるモデル決定の説明 [全文訳有]

ProtoTEx: Explaining Model Decisions with Prototype Tensors ( http://arxiv.org/abs/2204.05426v1 )

ライセンス: CC BY 4.0
Anubrata Das and Chitrank Gupta and Venelin Kovatchev and Matthew Lease and Junyi Jessy Li(参考訳) プロトタイプネットワークに基づく新しいホワイトボックスNLP分類アーキテクチャであるProtoTExを提案する。 ProtoTExは、トレーニング例の潜在クラスタをエンコードするプロトタイプテンソルに基づいて、モデル決定を忠実に説明する。 推論時に、分類決定は入力テキストとプロトタイプテンソル間の距離に基づいており、最も影響力のあるプロトタイプと最もよく似たトレーニング例を通して説明される。 また,指示的特徴の欠如を特徴とするクラスを効果的に扱う新しいインターリーブ学習アルゴリズムについて述べる。 プロパガンダ検出タスクでは、ProtoTExの精度はBART-largeと一致し、BERT-largeを超える。 オンラインニュースのプロパガンダをよりよく認識するために、プロトタイプベースの説明が非専門家に役立ちます。

We present ProtoTEx, a novel white-box NLP classification architecture based on prototype networks. ProtoTEx faithfully explains model decisions based on prototype tensors that encode latent clusters of training examples. At inference time, classification decisions are based on the distances between the input text and the prototype tensors, explained via the training examples most similar to the most influential prototypes. We also describe a novel interleaved training algorithm that effectively handles classes characterized by the absence of indicative features. On a propaganda detection task, ProtoTEx accuracy matches BART-large and exceeds BERT-large with the added benefit of providing faithful explanations. A user study also shows that prototype-based explanations help non-experts to better recognize propaganda in online news.
翻訳日:2022-04-14 05:01:24 公開日:2022-04-11
# (参考訳) Grad-CAMによる敵対的説明の一般化 [全文訳有]

Generalizing Adversarial Explanations with Grad-CAM ( http://arxiv.org/abs/2204.05427v1 )

ライセンス: CC BY 4.0
Tanmay Chakraborty, Utkarsh Trehan, Khawla Mallat, and Jean-Luc Dugelay(参考訳) Grad-CAM(Gradient-we ighted Class Activation Mapping)は、畳み込みニューラルネットワーク(CNN)モデルの説明として勾配活性化熱マップを提供する例に基づく説明法である。 この手法の欠点は、CNNの振る舞いを一般化できないことである。 本稿では,Grad-CAMを例ベースの説明からグローバルモデル動作を説明する方法まで拡張する手法を提案する。 これは2つの新しいメトリクスを導入することで達成される。 一 観測された異種性(MOD)及び (II)モデル一般化のための相似性の変化(VID)。 これらのメトリクスは、Grad-CAM生成熱マップの正規化逆構造類似度指数(NISSIM)メトリックと、元のテストセットと逆テストセットのサンプルを比較して計算される。 本研究では,VGG16,ResNet50,ResN et101などの深層モデルと,FGSM(Fast Gradient Sign Method)を用いたInceptionNetv3,Xcept ionNetのような広層モデルに対する敵攻撃について検討した。 次に、VGGFace2データセットを用いて、自動顔認証(AFR)ユースケースのメトリクスMODとVIDを算出する。 我々は,grad-camのヒートマップで強調された領域の一貫した変化を観察し,その意思決定への関与を反映した。 提案手法は, 画像解析のためのブラックボックスcnnモデルの動作を解析し, 敵対的攻撃の理解に有用である。

Gradient-weighted Class Activation Mapping (Grad- CAM), is an example-based explanation method that provides a gradient activation heat map as an explanation for Convolution Neural Network (CNN) models. The drawback of this method is that it cannot be used to generalize CNN behaviour. In this paper, we present a novel method that extends Grad-CAM from example-based explanations to a method for explaining global model behaviour. This is achieved by introducing two new metrics, (i) Mean Observed Dissimilarity (MOD) and (ii) Variation in Dissimilarity (VID), for model generalization. These metrics are computed by comparing a Normalized Inverted Structural Similarity Index (NISSIM) metric of the Grad-CAM generated heatmap for samples from the original test set and samples from the adversarial test set. For our experiment, we study adversarial attacks on deep models such as VGG16, ResNet50, and ResNet101, and wide models such as InceptionNetv3 and XceptionNet using Fast Gradient Sign Method (FGSM). We then compute the metrics MOD and VID for the automatic face recognition (AFR) use case with the VGGFace2 dataset. We observe a consistent shift in the region highlighted in the Grad-CAM heatmap, reflecting its participation to the decision making, across all models under adversarial attacks. The proposed method can be used to understand adversarial attacks and explain the behaviour of black box CNN models for image analysis.
翻訳日:2022-04-14 04:44:13 公開日:2022-04-11
# (参考訳) 少数ショット画像分類における逆ロバスト性に対する簡便なアプローチ

A Simple Approach to Adversarial Robustness in Few-shot Image Classification ( http://arxiv.org/abs/2204.05432v1 )

ライセンス: CC BY 4.0
Akshayvarun Subramanya, Hamed Pirsiavash(参考訳) ラベル付きデータに制限のあるタスクに一般化することが目的である画像分類は、ここ数年で大きな進歩を遂げてきた。 しかし、分類器は敵の例に対して脆弱であり、一般化能力に関する疑問を呈する。 最近の研究は、メタラーニングのアプローチと敵対的なトレーニングを組み合わせることで、少数ショット分類器の堅牢性を改善することを試みている。 単純な移動学習に基づくアプローチは、逆向きに頑健な少数ショット分類器の訓練に利用できることを示す。 また,基本クラスに対して,マイトショットカテゴリのセンタロイドを校正することに基づく,新しい分類タスクの手法を提案する。 そこで本研究では,基本カテゴリにおける標準敵意訓練と,新しいカテゴリにおけるセンタロイドベース分類器の校正が,標準ベンチマークによる最先端手法と同等か,あるいは同等かを示す。 この手法は単純でスケールが容易であり,少ない労力でロバストな少数ショット分類が可能となる。 コードはここで入手できる。 \url{https://github.com/U CDvision/Simple_few_ shot.git}

Few-shot image classification, where the goal is to generalize to tasks with limited labeled data, has seen great progress over the years. However, the classifiers are vulnerable to adversarial examples, posing a question regarding their generalization capabilities. Recent works have tried to combine meta-learning approaches with adversarial training to improve the robustness of few-shot classifiers. We show that a simple transfer-learning based approach can be used to train adversarially robust few-shot classifiers. We also present a method for novel classification task based on calibrating the centroid of the few-shot category towards the base classes. We show that standard adversarial training on base categories along with calibrated centroid-based classifier in the novel categories, outperforms or is on-par with state-of-the-art advanced methods on standard benchmarks for few-shot learning. Our method is simple, easy to scale, and with little effort can lead to robust few-shot classifiers. Code is available here: \url{https://github.com/U CDvision/Simple_few_ shot.git}
翻訳日:2022-04-14 04:33:44 公開日:2022-04-11
# データセンター用低炭素コンクリートの高速設計と展開

Accelerated Design and Deployment of Low-Carbon Concrete for Data Centers ( http://arxiv.org/abs/2204.05397v1 )

ライセンス: Link先を確認
Xiou Ge, Richard T. Goodwin, Haizi Yu, Pablo Romero, Omar Abdelrahman, Amruta Sudhalkar, Julius Kusuma, Ryan Cialdella, Nishant Garg, and Lav R. Varshney(参考訳) コンクリートは世界で最も広く使われている材料であり、年間100億トン以上を生産している。 残念ながら、このスケールでは、温室効果ガスやその他の汚染物質のエネルギー、水、放出の面でかなりの負担がかかる。 そのため, 圧縮強度を含む工学的性能要件を満たしつつ, 環境負荷を最小限に抑える具体的な公式の作成に関心がある。 特にコンピューティングにおいて、コンクリートはデータセンター建設の主要な要素である。 本研究では,半教師付き生成人工知能(AI)モデルの一種である条件付き変分オートエンコーダ(CVAE)を用いて,所望の特性を持つ具体的な公式を発見する。 われわれのモデルは、UCI Machine Learning Repositoryの小さなオープンデータセットと、標準ライフサイクル分析の環境影響データだけで訓練されている。 CVAEは、設計要件を満たしながら、既存の定式化よりも炭素要求の少ないコンクリート式を設計できることを示す。 次に, 実験室を用いた5つのAI生成定式化のための圧縮強度実験を行い, 定式化が設計要求を超えることを示す。 その結果得られた定式化はオジンガ・レディ・ミックス(コンクリートサプライヤー)によって、現地の条件とコンクリートの設計に関する専門知識に基づいて、フィールド対応のコンクリート定式化を生成するために使用された。 最後に, これらの定式化が, アメリカ合衆国, デカルブのメタデータセンターにおける建物や構造物の建築にどのように使われたかについて報告する。 この実世界の展開の一部としてのフィールド実験の結果は、aiが生成する低炭素コンクリートミキサーの有効性を裏付けている。

Concrete is the most widely used engineered material in the world with more than 10 billion tons produced annually. Unfortunately, with that scale comes a significant burden in terms of energy, water, and release of greenhouse gases and other pollutants; indeed 8% of worldwide carbon emissions are attributed to the production of cement, a key ingredient in concrete. As such, there is interest in creating concrete formulas that minimize this environmental burden, while satisfying engineering performance requirements including compressive strength. Specifically for computing, concrete is a major ingredient in the construction of data centers. In this work, we use conditional variational autoencoders (CVAEs), a type of semi-supervised generative artificial intelligence (AI) model, to discover concrete formulas with desired properties. Our model is trained just using a small open dataset from the UCI Machine Learning Repository joined with environmental impact data from standard lifecycle analysis. Computational predictions demonstrate CVAEs can design concrete formulas with much lower carbon requirements than existing formulations while meeting design requirements. Next we report laboratory-based compressive strength experiments for five AI-generated formulations, which demonstrate that the formulations exceed design requirements. The resulting formulations were then used by Ozinga Ready Mix -- a concrete supplier -- to generate field-ready concrete formulations, based on local conditions and their expertise in concrete design. Finally, we report on how these formulations were used in the construction of buildings and structures in a Meta data center in DeKalb, IL, USA. Results from field experiments as part of this real-world deployment corroborate the efficacy of AI-generated low-carbon concrete mixes.
翻訳日:2022-04-13 14:43:53 公開日:2022-04-11
# 深部強化学習に基づくロボット手術のための半自律制御

Deep Reinforcement Learning Based Semi-Autonomous Control for Robotic Surgery ( http://arxiv.org/abs/2204.05433v1 )

ライセンス: Link先を確認
Ruiqi Zhu, Dandan Zhang and Benny Lo(参考訳) 近年、外科用ロボットが外科医や患者にもたらす大きな恩恵が目撃されている。 器用な手術と高精度な手術で、手術ロボットは患者の回復時間を短縮し、入院時間を短縮できる。 しかし,現在使用されている手術ロボットのコントロールは遠隔操作で完全に行われている。 手術の過程では、反復的だが単純な操作が多数存在し、外科医に不要な疲労を引き起こす可能性がある。 本稿では,ロボット手術のための深層強化学習に基づく半自律制御フレームワークを提案する。 ユーザ調査により、このフレームワークは完了時間を19.1%、旅行期間を58.7%短縮できることがわかった。

In recent decades, the tremendous benefits surgical robots have brought to surgeons and patients have been witnessed. With the dexterous operation and the great precision, surgical robots can offer patients less recovery time and less hospital stay. However, the controls for current surgical robots in practical usage are fully carried out by surgeons via teleoperation. During the surgery process, there exists a lot of repetitive but simple manipulation, which can cause unnecessary fatigue to the surgeons. In this paper, we proposed a deep reinforcement learning-based semi-autonomous control framework for robotic surgery. The user study showed that the framework can reduce the completion time by 19.1% and the travel length by 58.7%.
翻訳日:2022-04-13 14:43:28 公開日:2022-04-11
# 類似システムからのデータの活用によるシステムのダイナミクスの同定

Identifying the Dynamics of a System by Leveraging Data from Similar Systems ( http://arxiv.org/abs/2204.05446v1 )

ライセンス: Link先を確認
Lei Xin, Lintao Ye, George Chiu, Shreyas Sundaram(参考訳) 類似する(しかし同一ではない)系が生成するサンプルへのアクセスがあるとき、真の系のデータに加えて線形系のダイナミクスを同定する問題について検討する。 重み付き最小二乗法を用いて,同定されたダイナミクスの品質に関する有限なサンプル性能保証を行う。 本研究の結果から, プロセスノイズによる推定誤差を, 真・副系のモデルに内在的な差異を生じさせる誤差を加味することにより, 類似システムによって生成された補助データを効果的に利用できることが示唆された。 理論的結果を検証するための数値実験も提供する。 我々の分析は様々な重要な設定に適用できる。 例えば、ある時点(例えば障害のため)にシステムのダイナミクスが変化した場合、新しいシステムのダイナミクスを学ぶために、前のシステムからのデータをどのように活用すべきか? 別の例として、真のシステムのシミュレーション(しかし不完全な)モデルから得られる豊富なデータがある場合、システムの実際のデータと比較した場合、そのデータをどのように重み付けすべきだろうか? 我々の分析はこれらの質問に対する回答に関する洞察を提供する。

We study the problem of identifying the dynamics of a linear system when one has access to samples generated by a similar (but not identical) system, in addition to data from the true system. We use a weighted least squares approach and provide finite sample performance guarantees on the quality of the identified dynamics. Our results show that one can effectively use the auxiliary data generated by the similar system to reduce the estimation error due to the process noise, at the cost of adding a portion of error that is due to intrinsic differences in the models of the true and auxiliary systems. We also provide numerical experiments to validate our theoretical results. Our analysis can be applied to a variety of important settings. For example, if the system dynamics change at some point in time (e.g., due to a fault), how should one leverage data from the prior system in order to learn the dynamics of the new system? As another example, if there is abundant data available from a simulated (but imperfect) model of the true system, how should one weight that data compared to the real data from the system? Our analysis provides insights into the answers to these questions.
翻訳日:2022-04-13 14:39:00 公開日:2022-04-11
# 耐火性評価のための因果発見と因果学習:ドメイン知識を取り入れて

Causal Discovery and Causal Learning for Fire Resistance Evaluation: Incorporating Domain Knowledge ( http://arxiv.org/abs/2204.05311v1 )

ライセンス: Link先を確認
M.Z. Naser, Aybike Ozyuksel Ciftcioglu(参考訳) 実験は火に関する現象を理解するための金の標準のままである。 テストの設計における第一の目標は、データ生成プロセス(すなわち、私たちが見ている観察がどうなったのかと理由)を明らかにすることである。 このようなプロセスを明らかにすることは、知識を前進させるだけでなく、現象を正確に予測する能力も提供してくれます。 本稿では,構造部材の耐火性を評価するために因果発見と因果推論を利用する手法を提案する。 本手法では, 鉄筋コンクリート(RC)柱の耐火性に関連するキー変数間の因果構造を明らかにするために, 因果発見アルゴリズムを採用した。 次に, コンパニオン推論アルゴリズムを適用し, 特定の介入が与えた耐火性に対する各変数の影響を推定(見積)する。 最後に、この研究は、アルゴリズムによる因果発見と、ドメイン知識と従来の機械学習から得られたものとを対比することで終わる。 我々の領域に因果性を導入する可能性とメリットは明らかです。

Experiments remain the gold standard to establish an understanding of fire-related phenomena. A primary goal in designing tests is to uncover the data generating process (i.e., the how and why the observations we see come to be); or simply what causes such observations. Uncovering such a process not only advances our knowledge but also provides us with the capability to be able to predict phenomena accurately. This paper presents an approach that leverages causal discovery and causal inference to evaluate the fire resistance of structural members. In this approach, causal discovery algorithms are adopted to uncover the causal structure between key variables pertaining to the fire resistance of reinforced concrete (RC) columns. Then, companion inference algorithms are applied to infer (estimate) the influence of each variable on the fire resistance given a specific intervention. Finally, this study ends by contrasting the algorithmic causal discovery with that obtained from domain knowledge and traditional machine learning. Our findings clearly show the potential and merit of adopting causality into our domain.
翻訳日:2022-04-13 14:37:55 公開日:2022-04-11
# 切削加工における自動チャタ検出のための伝達学習

Transfer Learning for Autonomous Chatter Detection in Machining ( http://arxiv.org/abs/2204.05400v1 )

ライセンス: Link先を確認
Melih C. Yesilli and Firas A. Khasawneh and Brian Mann(参考訳) 大振幅振動は加工過程において最も重要な現象の1つである。 表面仕上不良や工具寿命の低下の原因となる切断作業にしばしば不利である。 そのため,機械学習を用いたおしゃべり検出は,過去10年間,活発な研究領域であった。 業界全体でのチャットター検出に機械学習を適用する上での3つの課題は、さまざまなプロセスにわたるチャットター機能の普遍性に対する不十分な理解、特徴抽出の自動化の必要性、特定のワークピースとマシンツールの組み合わせに限定的なデータが存在すること、である。 これら3つの課題は、移行学習の傘の下でグループ化することができる。 本稿では,著明な伝達学習の評価と新しいチャットター検出手法によるチャットター検出の自動化について検討する。 異なる切削形状の切削実験から抽出した各種特徴を用いてチャッター分類精度について検討した。 研究方法は,Fast Fourier Transform (FFT), Power Spectral Density (PSD), Auto-correlation Function (ACF), Wavelet Packet Transform (WPT), Ensemble Empirical Mode Decomposition (EEMD)である。 また、TDA(Topological Data Analysis)とDTW(Disdisrete Time Warping)に基づく時系列の類似度尺度に基づく最近のアプローチについても検討する。 各アプローチのトランスファー学習ポテンシャルを,データセットの回転と回転の両方をトレーニングし,テストすることで評価する。 その結果,手作業による事前処理や専門家のタグ付けを必要とせず,慎重に選択された時間周波数特性は高い分類精度をもたらすことが判明した。 一方,TDAおよびDTWアプローチは,手動前処理を必要とせずに,時間周波数法と同等の精度とF1スコアが得られることがわかった。

Large-amplitude chatter vibrations are one of the most important phenomena in machining processes. It is often detrimental in cutting operations causing a poor surface finish and decreased tool life. Therefore, chatter detection using machine learning has been an active research area over the last decade. Three challenges can be identified in applying machine learning for chatter detection at large in industry: an insufficient understanding of the universality of chatter features across different processes, the need for automating feature extraction, and the existence of limited data for each specific workpiece-machine tool combination. These three challenges can be grouped under the umbrella of transfer learning. This paper studies automating chatter detection by evaluating transfer learning of prominent as well as novel chatter detection methods. We investigate chatter classification accuracy using a variety of features extracted from turning and milling experiments with different cutting configurations. The studied methods include Fast Fourier Transform (FFT), Power Spectral Density (PSD), the Auto-correlation Function (ACF), Wavelet Packet Transform (WPT), and Ensemble Empirical Mode Decomposition (EEMD). We also examine more recent approaches based on Topological Data Analysis (TDA) and similarity measures of time series based on Discrete Time Warping (DTW). We evaluate the transfer learning potential of each approach by training and testing both within and across the turning and milling data sets. Our results show that carefully chosen time-frequency features can lead to high classification accuracies albeit at the cost of requiring manual pre-processing and the tagging of an expert user. On the other hand, we found that the TDA and DTW approaches can provide accuracies and F1 scores on par with the time-frequency methods without the need for manual preprocessing.
翻訳日:2022-04-13 14:37:38 公開日:2022-04-11
# ボルダ数による$m$-wise部分ランキングの上位$k$選択について

On Top-$k$ Selection from $m$-wise Partial Rankings via Borda Counting ( http://arxiv.org/abs/2204.05742v1 )

ライセンス: Link先を確認
Wenjing Chen, Ruida Zhou, Chao Tian, Cong Shen(参考訳) 本研究では,非パラメトリックモデルにおけるボルダ計数アルゴリズムの性能解析を行う。 このアルゴリズムは、$m$サイズのサブセット内のアイテムの確率的ランキングを利用して、合計$n$のアイテムの中で、どのアイテムが上位k$のアイテムであるかを正確に決定する必要がある。 ボルダカウントアルゴリズムは、これらの部分的なランキング観測から各項目の累積スコアを単純にカウントする。 これは、確率的対比較データを用いて、Shahらによる同様の性質の以前の研究を一般化する。 bordaカウントアルゴリズムの性能は、関連するスコア分離 $\delta_k$ が $k$-th 項目と $(k+1)$-th 項目の間で決定的に依存する。 具体的には、$\Delta_k$が特定の値より大きい場合、アルゴリズムによって選択された上位$k$アイテムはほぼ確実に漸近的に正確であることを示し、もし$\Delta_k$が特定の値以下であれば、結果は一定の確率で不正確なものになる。 m=2$の特別な場合、すなわち対比較の場合、結果のバウンドはシャーらによって与えられるバウンドよりも厳密であり、エラー確率の上限と下限の間のギャップを小さくする。 これらの結果は、近似のトップ$k$選択設定にさらに拡張される。 数値実験により、ボルダカウントアルゴリズムの有効性と精度をスペクトルMLEベースのアルゴリズムと比較し、特にデータが仮定されたパラメトリックモデルに従わない場合と比較した。

We analyze the performance of the Borda counting algorithm in a non-parametric model. The algorithm needs to utilize probabilistic rankings of the items within $m$-sized subsets to accurately determine which items are the overall top-$k$ items in a total of $n$ items. The Borda counting algorithm simply counts the cumulative scores for each item from these partial ranking observations. This generalizes a previous work of a similar nature by Shah et al. using probabilistic pairwise comparison data. The performance of the Borda counting algorithm critically depends on the associated score separation $\Delta_k$ between the $k$-th item and the $(k+1)$-th item. Specifically, we show that if $\Delta_k$ is greater than certain value, then the top-$k$ items selected by the algorithm is asymptotically accurate almost surely; if $\Delta_k$ is below certain value, then the result will be inaccurate with a constant probability. In the special case of $m=2$, i.e., pairwise comparison, the resultant bound is tighter than that given by Shah et al., leading to a reduced gap between the error probability upper and lower bounds. These results are further extended to the approximate top-$k$ selection setting. Numerical experiments demonstrate the effectiveness and accuracy of the Borda counting algorithm, compared with the spectral MLE-based algorithm, particularly when the data does not necessarily follow an assumed parametric model.
翻訳日:2022-04-13 14:30:57 公開日:2022-04-11
# 畳み込みニューラルネットワークを用いた損失振動試験データ復元の試み

Lost Vibration Test Data Recovery Using Convolutional Neural Network: A Case Study ( http://arxiv.org/abs/2204.05440v1 )

ライセンス: Link先を確認
Pouya Moeinifard, Mohammad Sadra Rajabi, Maryam Bitaraf(参考訳) 構造健康モニタリング(SHM)ネットワークにおけるデータ損失は、最近、エンジニアにとって大きな課題の1つになっている。 したがって、SHMのデータリカバリ手法は一般的に高価な手順である。 最近、ニューラルネットワーク(NN)アルゴリズムを使って、この貴重な生データを復元する技術が提案されている。 このうち、畳み込みに基づく畳み込みニューラルネットワーク(CNN)は、人間の監督なしに重要な特徴を抽出する信号などの非画像データセットに適用することができる。 しかし、異なるパラメータの効果は研究されておらず、SHMアプリケーションに最適化されていない。 そこで本研究では,アラモサ・キャニオン橋のCNNアルゴリズムを実構造として用いた提案手法の1つに対して,異なるアーキテクチャを提案し,異なるハイパーパラメータの効果を検討することを目的とする。 この目的のために,3つの異なるCNNモデルを用いて,他のセンサ間の相関関係を見出すことにより,1と2の誤動作を予測した。 その後,実験データを用いてCNNアルゴリズムを訓練し,アラモサ・キャニオン橋の欠落したデータを予測する上で,信頼性の高い性能を示した。 畳み込み層を追加することによりモデルの精度が向上した。 また、CNNモデルと同じ入力と出力で、2つの隠れた層を持つ標準的なニューラルネットワークをトレーニングした。 その結果,cnnモデルの方が精度が高く,計算コストが低く,標準ニューラルネットワークよりも高速であった。

Data loss in Structural Health Monitoring (SHM) networks has recently become one of the main challenges for engineers. Therefore, a data recovery method for SHM, generally an expensive procedure, is essential. Lately, some techniques offered to recover this valuable raw data using Neural Network (NN) algorithms. Among them, the convolutional neural network (CNN) based on convolution, a mathematical operation, can be applied to non-image datasets such as signals to extract important features without human supervision. However, the effect of different parameters has not been studied and optimized for SHM applications. Therefore, this paper aims to propose different architectures and investigate the effects of different hyperparameters for one of the newest proposed methods, which is based on a CNN algorithm for the Alamosa Canyon Bridge as a real structure. For this purpose, three different CNN models were considered to predict one and two malfunctioned sensors by finding the correlation between other sensors, respectively. Then the CNN algorithm was trained by experimental data, and the results showed that the method had a reliable performance in predicting Alamosa Canyon Bridge's missed data. The accuracy of the model was increased by adding a convolutional layer. Also, a standard neural network with two hidden layers was trained with the same inputs and outputs of the CNN models. Based on the results, the CNN model had higher accuracy, lower computational cost, and was faster than the standard neural network.
翻訳日:2022-04-13 14:29:41 公開日:2022-04-11
# 動き最適化のための暗黙の事前学習

Learning Implicit Priors for Motion Optimization ( http://arxiv.org/abs/2204.05369v1 )

ライセンス: Link先を確認
Alexander Lambert, An T. Le, Julen Urain, Georgia Chalvatzaki, Byron Boots, Jan Peters(参考訳) 本稿では,運動最適化の先駆けとして,エネルギーベースモデル(EBM)の統合の問題に焦点を当てる。 EBMは、適切なエネルギー関数によってパラメータ化されたギブス分布の観点から表現可能な確率密度分布を表現できるニューラルネットワークの集合である。 その暗黙的性質から、運動最適化問題における最適化因子や初期サンプリング分布として容易に統合することができ、運動最適化問題においてデータ駆動前駆を統合できる良い候補となる。 本稿では,ebmを動作最適化に適応させるために必要なモデリングとアルゴリズム選択のセットを提案する。 我々は,ebmの学習に追加の正規化器を組み込むことで,グラデーションに基づくオプティマイザと併用することの利点について検討し,操作タスクの一般化分布を学習するためのebmアーキテクチャのセットを提案する。 動作最適化のためにEMMを統合できる事例を複数報告し,シミュレーションおよび実ロボット実験の先駆者として学習したEMMの性能評価を行った。

In this paper, we focus on the problem of integrating Energy-based Models (EBM) as guiding priors for motion optimization. EBMs are a set of neural networks that can represent expressive probability density distributions in terms of a Gibbs distribution parameterized by a suitable energy function. Due to their implicit nature, they can easily be integrated as optimization factors or as initial sampling distributions in the motion optimization problem, making them good candidates to integrate data-driven priors in the motion optimization problem. In this work, we present a set of required modeling and algorithmic choices to adapt EBMs into motion optimization. We investigate the benefit of including additional regularizers in the learning of the EBMs to use them with gradient-based optimizers and we present a set of EBM architectures to learn generalizable distributions for manipulation tasks. We present multiple cases in which the EBM could be integrated for motion optimization and evaluate the performance of learned EBMs as guiding priors for both simulated and real robot experiments.
翻訳日:2022-04-13 13:41:30 公開日:2022-04-11
# medXGAN: 生成潜在空間による医用分類器の視覚的説明

medXGAN: Visual Explanations for Medical Classifiers through a Generative Latent Space ( http://arxiv.org/abs/2204.05376v1 )

ライセンス: Link先を確認
Amil Dravid, Florian Schiffers, Boqing Gong, Aggelos K. Katsaggelos(参考訳) 過去10年間のディープラーニングの急増にもかかわらず、ブラックボックスの性質から、実際にこれらのモデルをデプロイすることに懐疑的なユーザもいる。 具体的には、重大な潜在的な影響がある医療分野において、モデルの決定に自信を得るための方法を開発する必要があります。 そこで本研究では,医学的分類器が2進予測において何を重視しているかを視覚的に説明するために,新しい医用画像生成対向フレームワークであるmedXGANを提案する。 医用画像のドメイン知識をエンコードすることにより,解剖学的構造と病理を分離し,潜在補間による微細な可視化を実現する。 さらに,その特徴が分類器の出力にどのように寄与するかを補間する潜在空間を最適化する。 本手法は,グラディエント重み付きクラスアクティベーションマッピング(Grad-CAM)や統合グラディエント(Integrated Gradients)などのベースラインを局所化や説明能力において上回る。 さらに、medXGANとIntegrated Gradientsを組み合わせることで、ノイズに対してより堅牢な説明が得られる。 コードは、https://github.com/a vdravid/medXGAN_expl anations.comで入手できる。

Despite the surge of deep learning in the past decade, some users are skeptical to deploy these models in practice due to their black-box nature. Specifically, in the medical space where there are severe potential repercussions, we need to develop methods to gain confidence in the models' decisions. To this end, we propose a novel medical imaging generative adversarial framework, medXGAN (medical eXplanation GAN), to visually explain what a medical classifier focuses on in its binary predictions. By encoding domain knowledge of medical images, we are able to disentangle anatomical structure and pathology, leading to fine-grained visualization through latent interpolation. Furthermore, we optimize the latent space such that interpolation explains how the features contribute to the classifier's output. Our method outperforms baselines such as Gradient-Weighted Class Activation Mapping (Grad-CAM) and Integrated Gradients in localization and explanatory ability. Additionally, a combination of the medXGAN with Integrated Gradients can yield explanations more robust to noise. The code is available at: https://github.com/a vdravid/medXGAN_expl anations.
翻訳日:2022-04-13 13:16:14 公開日:2022-04-11
# ニューラルトランスデューサを用いた大規模ストリーミング音声翻訳

Large-Scale Streaming End-to-End Speech Translation with Neural Transducers ( http://arxiv.org/abs/2204.05352v1 )

ライセンス: Link先を確認
Jian Xue, Peidong Wang, Jinyu Li, Matt Post, Yashesh Gaur(参考訳) ニューラルトランスデューサは自動音声認識(ASR)で広く使われている。 本稿では,音声信号を他の言語で直接テキストに変換することを目的とした,エンドツーエンド音声翻訳(st)のストリーミングについて紹介する。 提案するトランスフォーマトトランスデューサ(tt)ベースのstモデルは,asrを実行し,テキストベースの機械翻訳(mt)を行うカスケードstと比較して,推論遅延を大幅に低減し,音声情報を活用するとともに,asrからmtへの誤り伝搬を回避してモデル化能力を向上させることを提案する。 さらに、TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。 大規模な50000時間(K時間)の擬似ラベル付きトレーニングセットの実験結果から,TTベースSTは推論時間を大幅に短縮するだけでなく,非ストリーム化STを英語・ドイツ語翻訳で上回った。

Neural transducers have been widely used in automatic speech recognition (ASR). In this paper, we introduce it to streaming end-to-end speech translation (ST), which aims to convert audio signals to texts in other languages directly. Compared with cascaded ST that performs ASR followed by text-based machine translation (MT), the proposed Transformer transducer (TT)-based ST model drastically reduces inference latency, exploits speech information, and avoids error propagation from ASR to MT. To improve the modeling capacity, we propose attention pooling for the joint network in TT. In addition, we extend TT-based ST to multilingual ST, which generates texts of multiple languages at the same time. Experimental results on a large-scale 50 thousand (K) hours pseudo-labeled training set show that TT-based ST not only significantly reduces inference time but also outperforms non-streaming cascaded ST for English-German translation.
翻訳日:2022-04-13 12:21:29 公開日:2022-04-11
# Few-shot Aspect-based Sentiment Analysisのための生成言語モデル

A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2204.05356v1 )

ライセンス: Link先を確認
Ehsan Hosseini-Asl, Wenhao Liu, Caiming Xiong(参考訳) 感性分析は自然言語処理において重要な課題である。 最近の研究で、訓練済み言語モデルは、特にトレーニングデータが不足している場合、最先端の結果を得るためにしばしば使用される。 通常、モデルの上にタスク固有のレイヤを追加することで、下流のタスクを微調整するのが一般的です。 本稿では,アスペクト項の抽出,カテゴリの抽出,対応する極性の予測を含む,アスペクトに基づく感情分析に焦点をあてる。 特に、わずかな設定に興味があります。 本稿では,一方向注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。 このようにして、モデルはタスク固有のレイヤをトレーニングすることなく、言語生成によってタスクを達成することを学習する。 単一タスクの極性予測における評価結果から,提案手法は従来の最先端技術(BERTに基づく)よりも高い性能を示すことが示された。 さらに、我々の生成的アプローチは低リソースデータによるモデル分散を著しく低減します。 さらに,提案する生成言語モデルが従来の作業と異なり,ジョイントおよびマルチタスクの設定を処理できることを実証する。 提案手法は,ジョイントおよびマルチタスク設定によってモデルが訓練された場合の極性予測の性能がさらに向上することを示す。 類似の感情分析データセットであるSST-2、SST-、OOSインテント検出のさらなる評価により、生成言語モデルの優位性とノイズロバスト性を数ショット設定で検証する。

Sentiment analysis is an important task in natural language processing. In recent works, pre-trained language models are often used to achieve state-of-the-art results, especially when training data is scarce. It is common to fine-tune on the downstream task, usually by adding task-specific layers on top of the model. In this paper, we focus on aspect-based sentiment analysis, which involves extracting aspect term, category, and predicting their corresponding polarities. In particular, we are interested in few-shot settings. We propose to reformulate the extraction and prediction tasks into the sequence generation task, using a generative language model with unidirectional attention (GPT2 is used unless stated otherwise). This way, the model learns to accomplish the tasks via language generation without the need of training task-specific layers. Our evaluation results on the single-task polarity prediction show that our approach outperforms the previous state-of-the-art (based on BERT) on average performance by a large margins in few-shot and full-shot settings. More importantly, our generative approach significantly reduces the model variance caused by low-resource data. We further demonstrate that the proposed generative language model can handle joint and multi-task settings, unlike previous work. We observe that the proposed sequence generation method achieves further improved performances on polarity prediction when the model is trained via joint and multi-task settings. Further evaluation on similar sentiment analysis datasets, SST-2, SST- and OOS intent detection validates the superiority and noise robustness of generative language model in few-shot settings.
翻訳日:2022-04-13 12:21:09 公開日:2022-04-11
# 位置方向オプティマイザ : 自然に触発された最適化アルゴリズム

Position-wise optimizer: A nature-inspired optimization algorithm ( http://arxiv.org/abs/2204.05312v1 )

ライセンス: Link先を確認
Amir Valizadeh(参考訳) ヒト神経系はシナプス可塑性を利用して最適化問題を解決する。 これまでの研究では、人工ニューラルネットワークのトレーニングプロセスに塑性因子を加えようと試みてきたが、ほとんどのモデルは複雑な外部制御を必要とする。 本稿では,生物の神経可塑性を模倣する,自然に着想を得た新しい最適化アルゴリズムを提案する。 さらに,モデルを3つのデータセット上でテストし,勾配降下最適化と比較した。

The human nervous system utilizes synaptic plasticity to solve optimization problems. Previous studies have tried to add the plasticity factor to the training process of artificial neural networks, but most of those models require complex external control over the network or complex novel rules. In this manuscript, a novel nature-inspired optimization algorithm is introduced that imitates biological neural plasticity. Furthermore, the model is tested on three datasets and the results are compared with gradient descent optimization.
翻訳日:2022-04-13 12:15:50 公開日:2022-04-11
# 確率的注意を伴うニューラルプロセス:コンテキストデータセットにもっと注意を払う

Neural Processes with Stochastic Attention: Paying more attention to the context dataset ( http://arxiv.org/abs/2204.05449v1 )

ライセンス: Link先を確認
Mingyu Kim, Kyeongryeol Go, Se-Young Yun(参考訳) ニューラルプロセス(NP)は、与えられたコンテキストデータセットに基づいて、目に見えないデータポイントを確率的に完了することを目的としている。 NPは、与えられたデータセットをコンテキスト表現として利用して、新しいタスクに適した識別子を導出する。 予測精度を向上させるために、NPの多くの変種は、新しいネットワークアーキテクチャや置換不変量を満たす集約関数を設計するコンテキスト埋め込みアプローチを調査してきた。 本研究では,適切なコンテキスト情報を取得するために,NPに対する確率的注意機構を提案する。 情報理論の観点から,提案手法はコンテキスト埋め込みをターゲットデータセットと区別し,NPがターゲットデータセットの特徴を考慮し,コンテキスト埋め込みを独立して行うことを実証する。 提案手法は,一般的なNPがコンテキスト埋め込みの欠如に悩まされている,ノイズの多いデータセットや制限されたタスク分布の下でも,コンテキスト埋め込みを適切に捉えることができる。 提案手法は, 1次元回帰, 捕食者-捕食者モデル, 画像補完などにより, 様々な領域における従来のNPよりも大幅に優れていることを示す。 さらに,本手法は実世界問題である movielens-10k データセットでも検証できる。

Neural processes (NPs) aim to stochastically complete unseen data points based on a given context dataset. NPs essentially leverage a given dataset as a context representation to derive a suitable identifier for a novel task. To improve the prediction accuracy, many variants of NPs have investigated context embedding approaches that generally design novel network architectures and aggregation functions satisfying permutation invariant. In this work, we propose a stochastic attention mechanism for NPs to capture appropriate context information. From the perspective of information theory, we demonstrate that the proposed method encourages context embedding to be differentiated from a target dataset, allowing NPs to consider features in a target dataset and context embedding independently. We observe that the proposed method can appropriately capture context embedding even under noisy data sets and restricted task distributions, where typical NPs suffer from a lack of context embeddings. We empirically show that our approach substantially outperforms conventional NPs in various domains through 1D regression, predator-prey model, and image completion. Moreover, the proposed method is also validated by MovieLens-10k dataset, a real-world problem.
翻訳日:2022-04-13 12:13:59 公開日:2022-04-11
# レコメンデーションシステムトレーニングのための不均一加速パイプライン

Heterogeneous Acceleration Pipeline for Recommendation System Training ( http://arxiv.org/abs/2204.05436v1 )

ライセンス: Link先を確認
Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair(参考訳) 推奨システムは、深層学習と大規模な埋め込みテーブルによる計算とメモリの強度の融合を示すため、ユニークなシステムである。 これらのモデルのトレーニングは通常、GPUが深層学習部を加速し、CPUがメモリ集約型埋め込みテーブルを格納し、処理するハイブリッドCPU-GPUモードを含む。 ハイブリッドモードはCPUからGPUへの転送時間を大幅に増加させ、メインメモリ帯域に依存して、ディープラーニングアクセラレーションのためにGPUに埋め込みをフィードする。 あるいは、GPU全体の埋め込みを格納して、転送時間を避け、GPUのHigh Bandwidth Memory(HBM)を利用することもできます。 このアプローチでは、GPUからGPUまでのバックエンド通信を必要とし、埋め込みテーブルのサイズでGPUの数をスケールアップする。 これらの懸念を克服するため,本稿ではhotlineと呼ばれる異種加速パイプラインを提案する。 Hotlineは、少数の埋め込みエントリのみが頻繁にアクセスされ、単一のGPUのHBMに容易に適合する、という洞察を活用する。 hotlineはデータ認識とモデル認識のスケジューリングパイプラインを実装しており、(1)cpuメインメモリを頻繁にアクセスされない組込みに、(2)gpuのローカルメモリを頻繁にアクセスする組込みに利用する。 hotlineは、新しいハードウェアアクセラレーションを通じて人気および非人気入力の実行を動的に縫い込み、gpuに供給することで、トレーニングスループットを向上させる。 実世界のデータセットとレコメンダモデルの結果、ホットラインは、intel最適化のcpu-gpu dlrmとbigctr最適化のgpuのみのベースラインと比較して、平均トレーニング時間を3倍と1.8倍削減できることが示されている。 Hotlineはトレーニング全体のスループットを、Intel最適化DLRMベースラインの5.3エポック/時間と比較すると、35.7エポック/時間に向上する。

Recommendation systems are unique as they show a conflation of compute and memory intensity due to their deep learning and massive embedding tables. Training these models typically involve a hybrid CPU-GPU mode, where GPUs accelerate the deep learning portion and the CPUs store and process the memory-intensive embedding tables. The hybrid mode incurs a substantial CPU-to-GPU transfer time and relies on main memory bandwidth to feed embeddings to GPU for deep learning acceleration. Alternatively, we can store the entire embeddings across GPUs to avoid the transfer time and utilize the GPU's High Bandwidth Memory (HBM). This approach requires GPU-to-GPU backend communication and scales the number of GPUs with the size of the embedding tables. To overcome these concerns, this paper offers a heterogeneous acceleration pipeline, called Hotline. Hotline leverages the insight that only a small number of embedding entries are accessed frequently, and can easily fit in a single GPU's HBM. Hotline implements a data-aware and model-aware scheduling pipeline that utilizes the (1) CPU main memory for not-frequently-acces sed embeddings and (2) GPUs' local memory for frequently-accessed embeddings. Hotline improves the training throughput by dynamically stitching the execution of popular and not-popular inputs through a novel hardware accelerator and feeding to the GPUs. Results on real-world datasets and recommender models show that Hotline reduces the average training time by 3x and 1.8x in comparison to Intel-optimized CPU-GPU DLRM and HugeCTR-optimized GPU-only baseline, respectively. Hotline increases the overall training throughput to 35.7 epochs/hour in comparison to 5.3 epochs/hour for the Intel-optimized DLRM baseline
翻訳日:2022-04-13 12:11:03 公開日:2022-04-11
# 自然言語推論における帰属法評価のための多言語的視点

A Multilingual Perspective Towards the Evaluation of Attribution Methods in Natural Language Inference ( http://arxiv.org/abs/2204.05428v1 )

ライセンス: Link先を確認
Kerem Zaman, Yonatan Belinkov(参考訳) 帰属法のほとんどの評価は英語に焦点を当てている。 本研究では,自然言語推論(NLI)タスクに対する帰属的手法を,妥当性と忠実性の観点から評価するための多言語的アプローチを提案する。 まず,単語アライメントに基づいて忠実度を測定するための新たな言語間戦略を導入する。 次に,異なる出力機構と集約手法を考慮した帰属法の包括的評価を行う。 最後に、xnliデータセットをハイライトベースの説明で拡張し、将来のexnlp研究をサポートするハイライト付き多言語nliデータセットを提供する。 以上の結果から,妥当性と忠実性に最適な属性法が異なることが明らかとなった。

Most evaluations of attribution methods focus on the English language. In this work, we present a multilingual approach for evaluating attribution methods for the Natural Language Inference (NLI) task in terms of plausibility and faithfulness properties. First, we introduce a novel cross-lingual strategy to measure faithfulness based on word alignments, which eliminates the potential downsides of erasure-based evaluations. We then perform a comprehensive evaluation of attribution methods, considering different output mechanisms and aggregation methods. Finally, we augment the XNLI dataset with highlight-based explanations, providing a multilingual NLI dataset with highlights, which may support future exNLP studies. Our results show that attribution methods performing best for plausibility and faithfulness are different.
翻訳日:2022-04-13 11:37:58 公開日:2022-04-11
# (参考訳) outfittransformer: ファッションレコメンデーションのための衣装表現の学習 [全文訳有]

OutfitTransformer: Learning Outfit Representations for Fashion Recommendation ( http://arxiv.org/abs/2204.04812v1 )

ライセンス: CC BY 4.0
Rohan Sarkar, Navaneeth Bodla, Mariya Vasileva, Yen-Liang Lin, Anurag Beniwal, Alan Lu, Gerard Medioni(参考訳) 効果的な衣服レベルの表現の学習は、衣服におけるアイテムの互換性を予測し、部分的な衣服のための補完的なアイテムを取得するために重要である。 本稿では,提案したタスク固有のトークンを用いて,適合予測と補完項目検索の両タスクに対処するために,全項目間の互換性関係を符号化する効果的な服飾レベルの表現を学習するフレームワークであるOutfitTransformerを提案する。 互換性予測のために,グローバルな装束表現を捕捉し,分類損失を用いてフレームワークを訓練するための装束トークンを設計する。 補完的な項目検索のために,対象項目の仕様(カテゴリやテキスト記述の形式で)を考慮に入れたターゲット項目トークンを設計する。 提案するセットワイズ方式の着衣ランキングの損失を用いて,着衣に埋め込まれた対象アイテムと対象アイテムの仕様を入力として生成するフレームワークをトレーニングする。 生成されたターゲットアイテムの埋め込みは、残りの服と一致する互換性のあるアイテムを検索するために使用される。 さらに,事前学習アプローチとカリキュラム学習戦略を採用し,検索性能を向上させる。 当社のフレームワークは,衣装レベルで学習するため,複数項目間の高次関係を,ペア方式よりも効率的にキャプチャする単一埋め込みを学習することができる。 提案手法は, 互換性予測, 補足的項目検索, 補足的項目検索において, 最先端の手法よりも優れていることを示す。 さらに,検索結果の質をユーザ・スタディで検証する。

Learning an effective outfit-level representation is critical for predicting the compatibility of items in an outfit, and retrieving complementary items for a partial outfit. We present a framework, OutfitTransformer, that uses the proposed task-specific tokens and leverages the self-attention mechanism to learn effective outfit-level representations encoding the compatibility relationships between all items in the entire outfit for addressing both compatibility prediction and complementary item retrieval tasks. For compatibility prediction, we design an outfit token to capture a global outfit representation and train the framework using a classification loss. For complementary item retrieval, we design a target item token that additionally takes the target item specification (in the form of a category or text description) into consideration. We train our framework using a proposed set-wise outfit ranking loss to generate a target item embedding given an outfit, and a target item specification as inputs. The generated target item embedding is then used to retrieve compatible items that match the rest of the outfit. Additionally, we adopt a pre-training approach and a curriculum learning strategy to improve retrieval performance. Since our framework learns at an outfit-level, it allows us to learn a single embedding capturing higher-order relations among multiple items in the outfit more effectively than pairwise methods. Experiments demonstrate that our approach outperforms state-of-the-art methods on compatibility prediction, fill-in-the-blank, and complementary item retrieval tasks. We further validate the quality of our retrieval results with a user study.
翻訳日:2022-04-13 06:29:38 公開日:2022-04-11
# (参考訳) グループエリート選択による効果的な突然変異率適応 [全文訳有]

Effective Mutation Rate Adaptation through Group Elite Selection ( http://arxiv.org/abs/2204.04817v1 )

ライセンス: CC BY 4.0
Akarsh Kumar, Bo Liu, Risto Miikkulainen, Peter Stone(参考訳) 進化的アルゴリズムは突然変異率(MR)に敏感であり、このパラメータの単一の値はドメイン間でうまく機能しない。 自己適応型MRアプローチは提案されているが、それらは脆い傾向があり、時にMRをゼロに崩壊させ、進化を停止させる。 本稿では,自己適応型MRを堅牢にするために,GESMRアルゴリズムを提案する。 GESMRは解の集団とMRの集団を共進化させ、各MRは解群に割り当てられる。 平均的な突然変異変化ではなく、結果として生じる最大の突然変異変化は、進化中のMR選択に使用され、消滅するMR問題を避ける。 同じ数の関数評価とオーバーヘッドがほとんどなく、gesmrは、幅広い連続テスト最適化問題に対する以前のアプローチよりも高速で優れたソリューションに収束する。 GESMRは、教師付き画像分類タスクや強化学習制御タスクのための高次元神経進化にも適している。 GESMRは、網羅的なルックアヘッドグリッドサーチによって示されるように、長期的に最適なMRを生成する。 したがって、GESMRとその理論的および経験的分析は、進化計算のいくつかの応用において、自己適応がどのようにして性能を向上させるかを示す。

Evolutionary algorithms are sensitive to the mutation rate (MR); no single value of this parameter works well across domains. Self-adaptive MR approaches have been proposed but they tend to be brittle: Sometimes they decay the MR to zero, thus halting evolution. To make self-adaptive MR robust, this paper introduces the Group Elite Selection of Mutation Rates (GESMR) algorithm. GESMR co-evolves a population of solutions and a population of MRs, such that each MR is assigned to a group of solutions. The resulting best mutational change in the group, instead of average mutational change, is used for MR selection during evolution, thus avoiding the vanishing MR problem. With the same number of function evaluations and with almost no overhead, GESMR converges faster and to better solutions than previous approaches on a wide range of continuous test optimization problems. GESMR also scales well to high-dimensional neuroevolution for supervised image-classification tasks and for reinforcement learning control tasks. Remarkably, GESMR produces MRs that are optimal in the long-term, as demonstrated through a comprehensive look-ahead grid search. Thus, GESMR and its theoretical and empirical analysis demonstrate how self-adaptation can be harnessed to improve performance in several applications of evolutionary computation.
翻訳日:2022-04-13 06:13:50 公開日:2022-04-11
# (参考訳) Cello: 予測早期終了と補償回帰による効率的なコンピュータシステム最適化 [全文訳有]

Cello: Efficient Computer Systems Optimization with Predictive Early Termination and Censored Regression ( http://arxiv.org/abs/2204.04831v1 )

ライセンス: CC BY 4.0
Yi Ding, Alex Renda, Ahsan Pervaiz, Michael Carbin, Henry Hoffmann(参考訳) サンプル効率機械学習(SEML)は、構成可能なコンピュータシステムに対して最適なレイテンシと電力トレードオフを求めるために広く応用されている。 構成空間からランダムにサンプリングする代わりに、SEMLはシステム目標(例えば低レイテンシやエネルギ)を最適化するためにサンプリングされる構成の数を劇的に削減することで、検索コストを削減する。 それでもsemlは、収集したサンプルの総数という、コストの1つのコンポーネントだけを削減できるが、各サンプルの収集コストを下げることはない。 重要な点として、すべてのサンプルが等しくはない。システム構成が遅いため、収集にはるかに時間がかかるものもある。 本稿では,最も遅い構成から得られるサンプル収集コストを削減したコンピュータシステム最適化フレームワークであるCelloについて述べる。 重要な洞察は、サンプルがシステムの動作不良(例えば、長いレイテンシや高エネルギー)を予測し、測定されたシステムの挙動が終了しきい値を超える前にこれらのサンプルを早期に終了することである。 将来のシステムの振る舞いを正確に予測するために、celloは、高いランタイムまたはエネルギーとして表される前に、検閲された回帰を使用して、サンプルの実行に関する正確な予測を生成する。 我々はApache Sparkワークロードのレイテンシとエネルギを最適化してCelloを評価する。 ハードウェアとソフトウェアのコンフィグレーションパラメータの組合せ空間を検索するのに、celloに一定の時間を与えます。 計算機システム最適化における最先端のsemlアプローチと比較して,celloは電力制約下でのレイテンシを最小化するためのレイテンシを1.19倍改善し,レイテンシ制約下でのエネルギーを最小化するエネルギーを1.18倍改善した。

Sample-efficient machine learning (SEML) has been widely applied to find optimal latency and power tradeoffs for configurable computer systems. Instead of randomly sampling from the configuration space, SEML reduces the search cost by dramatically reducing the number of configurations that must be sampled to optimize system goals (e.g., low latency or energy). Nevertheless, SEML only reduces one component of cost -- the total number of samples collected -- but does not decrease the cost of collecting each sample. Critically, not all samples are equal; some take much longer to collect because they correspond to slow system configurations. This paper present Cello, a computer systems optimization framework that reduces sample collection costs -- especially those that come from the slowest configurations. The key insight is to predict ahead of time whether samples will have poor system behavior (e.g., long latency or high energy) and terminate these samples early before their measured system behavior surpasses the termination threshold, which we call it predictive early termination. To predict the future system behavior accurately before it manifests as high runtime or energy, Cello uses censored regression to produces accurate predictions for running samples. We evaluate Cello by optimizing latency and energy for Apache Spark workloads. We give Cello a fixed amount of time to search a combined space of hardware and software configuration parameters. Our evaluation shows that compared to the state-of-the-art SEML approach in computer systems optimization, Cello improves latency by 1.19X for minimizing latency under a power constraint, and improves energy by 1.18X for minimizing energy under a latency constraint.
翻訳日:2022-04-13 05:49:00 公開日:2022-04-11
# (参考訳) 単語埋め込みは単語のリズミカルな類似性を捉えることができる [全文訳有]

Word Embeddings Are Capable of Capturing Rhythmic Similarity of Words ( http://arxiv.org/abs/2204.04833v1 )

ライセンス: CC BY 4.0
Hosein Rezaei(参考訳) Word2VecやGloVeのような単語埋め込みシステムは、NLPに対するディープラーニングアプローチでよく知られている。 これは主に、単語間の意味的関係を捉える能力による。 本研究では,単語のリズム的類似性を捉える上での有用性について検討した。 その結果、これらの埋め込みが押韻語に割り当てられるベクトルは、他の単語と比較して互いに類似していることが示された。 また、この点に関してGloVeはWord2Vecよりも比較的優れていることも明らかにされている。 また,一対の単語のリズミカルな類似性を定量化するための最初の指標を提案した。

Word embedding systems such as Word2Vec and GloVe are well-known in deep learning approaches to NLP. This is largely due to their ability to capture semantic relationships between words. In this work we investigated their usefulness in capturing rhythmic similarity of words instead. The results show that vectors these embeddings assign to rhyming words are more similar to each other, compared to the other words. It is also revealed that GloVe performs relatively better than Word2Vec in this regard. We also proposed a first of its kind metric for quantifying rhythmic similarity of a pair of words.
翻訳日:2022-04-13 05:25:04 公開日:2022-04-11
# (参考訳) 物体干渉検出における変圧器の復号経路拡張による一貫性学習

Consistency Learning via Decoding Path Augmentation for Transformers in Human Object Interaction Detection ( http://arxiv.org/abs/2204.04836v1 )

ライセンス: CC BY 4.0
Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim(参考訳) 人間とオブジェクトのインタラクション検出は、オブジェクト検出とインタラクションの分類を伴う総合的なビジュアル認識タスクである。 HOI検出のこれまでの作業は,画像 -> HO -> I, Image -> HI -> O. 最近,HOIのトランスフォーマーベースアーキテクチャが出現し,HoI三重項をエンドツーエンドで直接予測する(画像 -> HOI)。 HOI検出のための様々な推論パスを動機として,拡張デコードパスを利用して変換器のHOI検出を改善するための新しいエンドツーエンド学習戦略であるクロスパス一貫性学習(CPC)を提案する。 cpc学習は、置換された推論シーケンスから可能なすべての予測を一貫性を持たせます。 この単純なスキームはモデルに一貫した表現を学習させ、モデル容量を増加させることなく一般化を改善する。 提案手法の有効性を実証し,v-cocoおよびhico-detをベースラインモデルと比較して有意に改善した。 私たちのコードはhttps://github.com/m lvlab/cpchoiで利用可能です。

Human-Object Interaction detection is a holistic visual recognition task that entails object detection as well as interaction classification. Previous works of HOI detection has been addressed by the various compositions of subset predictions, e.g., Image -> HO -> I, Image -> HI -> O. Recently, transformer based architecture for HOI has emerged, which directly predicts the HOI triplets in an end-to-end fashion (Image -> HOI). Motivated by various inference paths for HOI detection, we propose cross-path consistency learning (CPC), which is a novel end-to-end learning strategy to improve HOI detection for transformers by leveraging augmented decoding paths. CPC learning enforces all the possible predictions from permuted inference sequences to be consistent. This simple scheme makes the model learn consistent representations, thereby improving generalization without increasing model capacity. Our experiments demonstrate the effectiveness of our method, and we achieved significant improvement on V-COCO and HICO-DET compared to the baseline models. Our code is available at https://github.com/m lvlab/CPChoi.
翻訳日:2022-04-13 05:17:29 公開日:2022-04-11
# (参考訳) 神経ラグランジアンschr\"odingerブリッジ [全文訳有]

Neural Lagrangian Schr\"odinger bridge ( http://arxiv.org/abs/2204.04853v1 )

ライセンス: CC BY 4.0
Takeshi Koshizuka and Issei Sato(参考訳) 個体群動態は、生物の大きさの時間的および空間的変動の研究であり、個体群生態学の主要な部分である。 個体群動態の解析における主な困難の一つは、実験コストやその他の制約により、不定点観測から粗い時間間隔の観測データしか得られないことである。 近年, 連続正規化流(CNFs)と動的最適輸送を用いた個体群動態のモデル化が提案されている。 cnfのサンプルの挙動は決定論的であるが、生物学的システムの実際のサンプルは本質的にランダムで方向が不規則である。 さらに、サンプルが力学系において点 A から点 B に移動するとき、その軌道は対応する作用が最小の可能な値を持ち、最小作用の原理として知られている。 サンプル軌道のこれらの要件を満たすため,ラグランジアン・シュル・オーディンガー橋(LSB)問題を定式化し,正則化を伴うニューラルネットワークSDEを用いて解くことを提案する。 高速な計算を可能にするモデルアーキテクチャも開発している。 実験の結果, lsb問題の解は個体群レベルでのダイナミクスを近似し, ラグランジアンによって導入された事前知識を用いることで, 確率的挙動で個々の試料の軌跡を推定できることがわかった。

Population dynamics is the study of temporal and spatial variation in the size of populations of organisms and is a major part of population ecology. One of the main difficulties in analyzing population dynamics is that we can only obtain observation data with coarse time intervals from fixed-point observations due to experimental costs or other constraints. Recently, modeling population dynamics by using continuous normalizing flows (CNFs) and dynamic optimal transport has been proposed to infer the expected trajectory of samples from a fixed-point observed population. While the sample behavior in CNF is deterministic, the actual sample in biological systems moves in an essentially random yet directional manner. Moreover, when a sample moves from point A to point B in dynamical systems, its trajectory is such that the corresponding action has the smallest possible value, known as the principle of least action. To satisfy these requirements of the sample trajectories, we formulate the Lagrangian Schr\"odinger bridge (LSB) problem and propose to solve it approximately using neural SDE with regularization. We also develop a model architecture that enables faster computation. Our experiments show that our solution to the LSB problem can approximate the dynamics at the population level and that using the prior knowledge introduced by the Lagrangian enables us to estimate the trajectories of individual samples with stochastic behavior.
翻訳日:2022-04-13 05:16:27 公開日:2022-04-11
# (参考訳) MOS予測のための自己教師付き学習モデルの融合 [全文訳有]

Fusion of Self-supervised Learned Models for MOS Prediction ( http://arxiv.org/abs/2204.04855v1 )

ライセンス: CC BY 4.0
Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre, Raphael Rubino, Yi Zhao(参考訳) 我々は2022年の平均世論スコア(MOS)予測課題に参加した。 この挑戦は、メイントラックとより挑戦的なサブトラックであるout-of-domain(ood)という2つのトラックで合成音声のmosスコアを予測することを目的としている。 予測スコアの精度を向上させるため,いくつかのモデル融合関連戦略を検討し,前訓練済み自己教師付き学習モデル (ssl) を組み込んだ融合フレームワークを提案した。 これらの事前訓練されたSSLモデルは、Wav2Vec、Hubert、WavLMを含む3つのASRフレームワークに由来する。 OODトラックでは、メイントラックで選択された7つのSSLモデルに従い、ラベルなしデータを利用するための半教師付き学習手法を採用した。 公式な分析結果によると、このシステムは16のメトリクスのうち6つで1位に達し、16のメトリクスのうち13のシステムでトップ3の1つとなっている。 具体的には,本トラックのシステムレベルでの最高スコアと,OODトラックの発話レベルにおけるLCC,SRCC,KTAU評価値の最高スコアを達成している。 基本的なSSLモデルと比較して、特にOODサブトラックでは、融合システムの予測精度が大幅に改善されている。

We participated in the mean opinion score (MOS) prediction challenge, 2022. This challenge aims to predict MOS scores of synthetic speech on two tracks, the main track and a more challenging sub-track: out-of-domain (OOD). To improve the accuracy of the predicted scores, we have explored several model fusion-related strategies and proposed a fused framework in which seven pretrained self-supervised learned (SSL) models have been engaged. These pretrained SSL models are derived from three ASR frameworks, including Wav2Vec, Hubert, and WavLM. For the OOD track, we followed the 7 SSL models selected on the main track and adopted a semi-supervised learning method to exploit the unlabeled data. According to the official analysis results, our system has achieved 1st rank in 6 out of 16 metrics and is one of the top 3 systems for 13 out of 16 metrics. Specifically, we have achieved the highest LCC, SRCC, and KTAU scores at the system level on main track, as well as the best performance on the LCC, SRCC, and KTAU evaluation metrics at the utterance level on OOD track. Compared with the basic SSL models, the prediction accuracy of the fused system has been largely improved, especially on OOD sub-track.
翻訳日:2022-04-13 04:57:17 公開日:2022-04-11
# (参考訳) 画像分割のための超u字型行列分解畳み込みニューラルネットワーク [全文訳有]

SUMD: Super U-shaped Matrix Decomposition Convolutional neural network for Image denoising ( http://arxiv.org/abs/2204.04861v1 )

ライセンス: CC BY 4.0
QiFan Li(参考訳) 本稿では,局所的およびグローバル的コンテキスト情報を画像のデノイジングに活用する,新規かつ効率的なcnnベースのフレームワークを提案する。 畳み込み自体の限界のため、CNNベースのメソッドは一般的に、トランスフォーマーベースのメソッドの長距離依存性と呼ばれる、効果的で構造化されたグローバルな特徴表現を構築することができない。 この問題に対処するために,ネットワーク内の行列分解モジュール(MD)を導入し,Transformerベースのメソッド性能に匹敵するグローバルコンテキスト機能を確立する。 U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて、MDモジュールをマルチブランチに統合し、現在の段階におけるパッチ範囲の相対的グローバルな特徴表現を取得する。 そして、段階入力が徐々に全体スコープに上昇し、最終特徴を継続的に改善する。 SIDD, DND, 合成ガウスノイズデータセットは, 我々のモデル(SUMD)がトランスフォーマー法を用いて, 視覚的品質と精度に匹敵する結果が得られることを示す。

In this paper, we propose a novel and efficient CNN-based framework that leverages local and global context information for image denoising. Due to the limitations of convolution itself, the CNN-based method is generally unable to construct an effective and structured global feature representation, usually called the long-distance dependencies in the Transformer-based method. To tackle this problem, we introduce the matrix decomposition module(MD) in the network to establish the global context feature, comparable to the Transformer based method performance. Inspired by the design of multi-stage progressive restoration of U-shaped architecture, we further integrate the MD module into the multi-branches to acquire the relative global feature representation of the patch range at the current stage. Then, the stage input gradually rises to the overall scope and continuously improves the final feature. Experimental results on various image denoising datasets: SIDD, DND, and synthetic Gaussian noise datasets show that our model(SUMD) can produce comparable visual quality and accuracy results with Transformer-based methods.
翻訳日:2022-04-13 04:46:28 公開日:2022-04-11
# (参考訳) 合成事実を用いたテキスト自動要約の評価 [全文訳有]

Evaluation of Automatic Text Summarization using Synthetic Facts ( http://arxiv.org/abs/2204.04869v1 )

ライセンス: CC BY 4.0
Jay Ahn (1), Foaad Khosmood (1) ((1) California Polytechnic State University, San Luis Obispo)(参考訳) 最近の進歩にもかかわらず、自動テキスト要約は信頼できず、分かりやすく、アプリケーションでの使用は限られている。 現在の要約法の主な2つの問題は、評価と事実整合性である。 そこで本研究では, テキスト要約モデルの品質を, 事実整合性, 包括性, 圧縮率に基づいて, 生成事実の集合を用いて測定できる, 新たな参照なしテキスト要約評価システムを提案する。 我々の知る限り、本評価システムは、事実性、情報カバレッジ、圧縮率に基づいて、テキスト要約モデルの全体的な品質を測定する最初のシステムである。

Despite some recent advances, automatic text summarization remains unreliable, elusive, and of limited practical use in applications. Two main problems with current summarization methods are well known: evaluation and factual consistency. To address these issues, we propose a new automatic reference-less text summarization evaluation system that can measure the quality of any text summarization model with a set of generated facts based on factual consistency, comprehensiveness, and compression rate. As far as we know, our evaluation system is the first system that measures the overarching quality of the text summarization models based on factuality, information coverage, and compression rate.
翻訳日:2022-04-13 04:36:45 公開日:2022-04-11
# (参考訳) BigScience Multilingual Model を未確認言語に適用する [全文訳有]

Adapting BigScience Multilingual Model to Unseen Languages ( http://arxiv.org/abs/2204.04873v1 )

ライセンス: CC BY 4.0
Zheng-Xin Yong and Vassilina Nikoulina(参考訳) 現在13の言語をサポートする13億のパラメータを持つBigScienceの事前訓練された多言語言語モデルに、新しい言語(ドイツ語と韓国語)を追加するためのさまざまな戦略をベンチマークする。 本稿では,モデルの言語適応性に影響を与える要因と,計算コストと期待性能のトレードオフについて検討する。

We benchmark different strategies of adding new languages (German and Korean) into the BigScience's pretrained multilingual language model with 1.3 billion parameters that currently supports 13 languages. We investigate the factors that affect the language adaptability of the model and the trade-offs between computational costs and expected performance.
翻訳日:2022-04-13 04:30:03 公開日:2022-04-11
# (参考訳) 因果構造を誘発する学習 [全文訳有]

Learning to Induce Causal Structure ( http://arxiv.org/abs/2204.04875v1 )

ライセンス: CC BY 4.0
Nan Rosemary Ke, Silvia Chiappa, Jane Wang, Jorg Bornschein, Theophane Weber, Anirudh Goyal, Matthew Botvinic, Michael Mozer, Danilo Jimenez Rezende(参考訳) 因果帰納法の基本的な課題は、観測データや介入データから基礎となるグラフ構造を推測することである。 既存の因果誘導アルゴリズムのほとんどは、候補グラフを生成し、スコアベースの方法(継続的な最適化を含む)と独立性テストを使ってそれらを評価することで動作する。 本研究では、スコアリング機能や独立性テストを提案する代わりに、推論プロセスをブラックボックスとして扱い、観測データと介入データの両方からグラフ構造へのマッピングを学ぶニューラルネットワークアーキテクチャを合成グラフの教師あり学習を通して設計する。 提案モデルは,新しい合成グラフだけでなく,自然主義グラフにも一般化できることを示す。

The fundamental challenge in causal induction is to infer the underlying graph structure given observational and/or interventional data. Most existing causal induction algorithms operate by generating candidate graphs and then evaluating them using either score-based methods (including continuous optimization) or independence tests. In this work, instead of proposing scoring function or independence tests, we treat the inference process as a black box and design a neural network architecture that learns the mapping from both observational and interventional data to graph structures via supervised training on synthetic graphs. We show that the proposed model generalizes not only to new synthetic graphs but also to naturalistic graphs.
翻訳日:2022-04-13 04:18:56 公開日:2022-04-11
# (参考訳) Twitterにおける情報トレンド分析とフェイクニュース検出手法 [全文訳有]

Methods of Informational Trends Analytics and Fake News Detection on Twitter ( http://arxiv.org/abs/2204.04891v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) この論文では、twitterにおけるニューストレンド分析の異なるアプローチが検討されている。 分析とケーススタディでは,2022年のロシアによるウクライナ侵攻によるTwitterの情報動向が調査されている。 偽ニュース検出のためのディープラーニングアプローチが解析されている。 頻繁な項目セットの理論や関連ルール、ニューストレンド分析のためのグラフ理論の利用が検討されている。

In the paper, different approaches for the analysis of news trends on Twitter has been considered. For the analysis and case study, informational trends on Twitter caused by Russian invasion of Ukraine in 2022 year have been studied. A deep learning approach for fake news detection has been analyzed. The use of the theory of frequent itemsets and association rules, graph theory for news trends analytics have been considered.
翻訳日:2022-04-13 03:54:48 公開日:2022-04-11
# (参考訳) jorldy:強化学習のための完全カスタマイズ可能なオープンソースフレームワーク [全文訳有]

JORLDY: a fully customizable open source framework for reinforcement learning ( http://arxiv.org/abs/2204.04892v1 )

ライセンス: CC BY-SA 4.0
Kyushik Min, Hyunho Lee, Kwansu Shin, Taehak Lee, Hojoon Lee, Jinwon Choi, Sungho Son(参考訳) 近年,Reinforcement Learning (RL) は学術・産業分野で積極的に研究されている。 しかし、RLを勉強したい研究者や学生のために開発されたRLフレームワークはわずかである。 そこで我々はオープンソースのRLフレームワーク"Join Our Reinforcement Learning framework for developing Yours" (JORLDY)を提案する。 JORLDYは、Pytorchで実装された20以上の広く使われているRLアルゴリズムを提供する。 また、JORLDYはOpenAIジム、Unity ML-Agents、Mujoco、Super Mario Bros、Procgenなど、複数のRL環境をサポートしている。 さらに、エージェント、ネットワーク、環境などのアルゴリズムコンポーネントを自由にカスタマイズすることができ、ユーザが簡単にアルゴリズムコンポーネントを修正して追加することができる。 我々は、JORLDYが様々なRL研究を支援し、RLの分野をさらに前進させることを期待する。 JORLDYのソースコードは次のGithubで提供されている。

Recently, Reinforcement Learning (RL) has been actively researched in both academic and industrial fields. However, there exist only a few RL frameworks which are developed for researchers or students who want to study RL. In response, we propose an open-source RL framework "Join Our Reinforcement Learning framework for Developing Yours" (JORLDY). JORLDY provides more than 20 widely used RL algorithms which are implemented with Pytorch. Also, JORLDY supports multiple RL environments which include OpenAI gym, Unity ML-Agents, Mujoco, Super Mario Bros and Procgen. Moreover, the algorithmic components such as agent, network, environment can be freely customized, so that the users can easily modify and append algorithmic components. We expect that JORLDY will support various RL research and contribute further advance the field of RL. The source code of JORLDY is provided on the following Github: https://github.com/k akaoenterprise/JORLD Y
翻訳日:2022-04-13 03:46:17 公開日:2022-04-11
# (参考訳) NeuS: フラーミングバイアスの緩和のためのニュートラルマルチニューズ要約 [全文訳有]

NeuS: Neutral Multi-News Summarization for Mitigating Framing Bias ( http://arxiv.org/abs/2204.04902v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Yejin Bang, Tiezheng Yu, Andrea Madotto, Pascale Fung(参考訳) メディアフレーミングバイアスは、政治的分極の増大につながる可能性があるため、自動緩和法の必要性が高まっている。 本稿では、政治的スペクトルの異なる複数のニュース見出しから中立的な要約を生成する新しいタスクを提案し、バランスのとれたニュース読解を容易にする。 本稿では,まず新たなデータセットを収集し,ケーススタディを通じてバイアスのフレーミングに関する洞察を得た上で,そのタスクに有効なメトリクスとモデルを提案する。 最後に,残る課題と今後の方向性について,実験分析を行った。 最も興味深い観察の1つは、生成モデルが事実的に不正確なコンテンツや検証不能なコンテンツだけでなく、政治的に偏ったコンテンツも提示できることである。

Media framing bias can lead to increased political polarization, and thus, the need for automatic mitigation methods is growing. We propose a new task, a neutral summary generation from multiple news headlines of the varying political spectrum, to facilitate balanced and unbiased news reading. In this paper, we first collect a new dataset, obtain some insights about framing bias through a case study, and propose a new effective metric and models for the task. Lastly, we conduct experimental analyses to provide insights about remaining challenges and future directions. One of the most interesting observations is that generation models can hallucinate not only factually inaccurate or unverifiable content, but also politically biased content.
翻訳日:2022-04-13 03:34:21 公開日:2022-04-11
# (参考訳) 同じ著者か、同じトピックか? コンテンツに依存しないスタイル表現に向けて [全文訳有]

Same Author or Just Same Topic? Towards Content-Independent Style Representations ( http://arxiv.org/abs/2204.04907v1 )

ライセンス: CC BY 4.0
Anna Wegmann, Marijn Schraagen, Dong Nguyen(参考訳) 言語スタイルは言語の不可欠な構成要素である。 スタイル表現の開発における最近の進歩は、著者検証(AV): 2つのテキストが同じ著者を持つか? avトレーニングタスクの基盤となる前提(著者は同じ書き方に近い)は、自己監督が可能であり、その結果、広範なトレーニングが可能になる。 しかし、AVタスクにおける優れたパフォーマンスは、優れた汎用的なスタイル表現を保証するものではない。 例えば、同じ著者が特定のトピックについて書いている場合、AVで訓練された表現は、スタイルのみでなくコンテンツ情報をエンコードする。 本稿では,会話やドメインラベルを用いてコンテンツを制御するAVトレーニングタスクのバリエーションを紹介する。 本稿では,最近提案されたstlフレームワークのオリジナルバリエーションを通して,既知のスタイル次元がコンテンツ情報よりも表現され,好まれるかどうかを評価する。 会話の制御によって訓練された表現は、コンテンツから独立したスタイルを表現するために、ドメインで訓練された表現よりも優れているか、コンテント制御がないことが分かりました。

Linguistic style is an integral component of language. Recent advances in the development of style representations have increasingly used training objectives from authorship verification (AV): Do two texts have the same author? The assumption underlying the AV training task (same author approximates same writing style) enables self-supervised and, thus, extensive training. However, a good performance on the AV task does not ensure good "general-purpose" ; style representations. For example, as the same author might typically write about certain topics, representations trained on AV might also encode content information instead of style alone. We introduce a variation of the AV training task that controls for content using conversation or domain labels. We evaluate whether known style dimensions are represented and preferred over content information through an original variation to the recently proposed STEL framework. We find that representations trained by controlling for conversation are better than representations trained with domain or no content control at representing style independent from content.
翻訳日:2022-04-13 03:11:43 公開日:2022-04-11
# (参考訳) トークンが残っていない:説明可能性に基づく画像分類と生成

No Token Left Behind: Explainability-Aided Image Classification and Generation ( http://arxiv.org/abs/2204.04908v1 )

ライセンス: CC BY 4.0
Roni Paiss, Hila Chefer, Lior Wolf(参考訳) ゼロショット学習のコンピュータビジョンへの応用は、画像テキストマッチングモデルの使用によって革新されている。 最も注目すべき例はクリップで、ゼロショット分類とテキストプロンプトによる生成モデル誘導の両方に広く使われている。 しかし、入力テキストのフレーズに関してCLIPのゼロショット使用は不安定であり、使用するプロンプトを慎重に設計する必要がある。 この不安定性は、意味論的に意味のある入力トークンのサブセットのみに基づく選択的な類似度スコアに由来する。 そこで本研究では,CLIPが入力のすべての意味的部分に注目することを保証するために,従来のCLIP類似性損失に加えて,新たな説明可能性に基づくアプローチを提案する。 素早い工学的手法によるワンショット分類に適用すると、追加の訓練や微調整なしに認識率の向上が得られる。 また,本手法を用いた生成モデルのクリップガイダンスが生成画像を大幅に改善することを示す。 最後に,対象位置を空間条件で設定したテキストベースの画像生成にCLIPガイダンスを新たに導入し,各対象を予め決定した境界ボックスに制限する画像説明可能性ヒートマップを提案する。

The application of zero-shot learning in computer vision has been revolutionized by the use of image-text matching models. The most notable example, CLIP, has been widely used for both zero-shot classification and guiding generative models with a text prompt. However, the zero-shot use of CLIP is unstable with respect to the phrasing of the input text, making it necessary to carefully engineer the prompts used. We find that this instability stems from a selective similarity score, which is based only on a subset of the semantically meaningful input tokens. To mitigate it, we present a novel explainability-based approach, which adds a loss term to ensure that CLIP focuses on all relevant semantic parts of the input, in addition to employing the CLIP similarity loss used in previous works. When applied to one-shot classification through prompt engineering, our method yields an improvement in the recognition rate, without additional training or fine-tuning. Additionally, we show that CLIP guidance of generative models using our method significantly improves the generated images. Finally, we demonstrate a novel use of CLIP guidance for text-based image generation with spatial conditioning on object location, by requiring the image explainability heatmap for each object to be confined to a pre-determined bounding box.
翻訳日:2022-04-13 02:49:23 公開日:2022-04-11
# (参考訳) hydatidiform mole hydrops lesion recognitionのための意味セグメンテーションネットワークに基づくリアルタイムコンピュータ支援診断システム [全文訳有]

A Semantic Segmentation Network Based Real-Time Computer-Aided Diagnosis System for Hydatidiform Mole Hydrops Lesion Recognition in Microscopic View ( http://arxiv.org/abs/2204.04949v1 )

ライセンス: CC BY 4.0
Chengze Zhu, Pingge Hu, Xianxu Zeng, Xingtong Wang, Zehua Ji and Li Shi(参考訳) 悪性度を有する疾患としては、HM(hydatidiform mole)が最も一般的である。 病理組織学的には,HydropsのHM領域は診断の重要な基盤である。 病理学の分野では、顕微鏡下HM病変の多彩な顕微鏡像と限られた視野は、診断経験の広い医師が診断ミスや誤診を予防するために必要であることを意味している。 特徴抽出は診断プロセスの精度と速度を大幅に向上させることができる。 診断補助技術として,コンピュータ支援診断(CAD)が臨床に広く用いられている。 我々は,HMハイドロプス病変をリアルタイムに観察するディープラーニングCADシステムを構築した。 本システムでは,イメージモザイクモジュールとエッジ拡張モジュールの3つのモジュールから構成し,イメージモザイクを処理し,意味セグメンテーションネットワークを採用したハイドロプス病変認識モジュール,新しい複合損失関数,ステップワイズトレーニング関数を用いてハイドロプス病変の同定に最適な性能を実現する。 HMハイドロプスデータセットを用いてシステム評価を行った。 実験の結果,本システムはリアルタイムに反応し,HMハイドロプス病変を正確にラベル付けした顕微鏡像全体を正しく表示することができた。

As a disease with malignant potential, hydatidiform mole (HM) is one of the most common gestational trophoblastic diseases. For pathologists, the HM section of hydrops lesions is an important basis for diagnosis. In pathology departments, the diverse microscopic manifestations of HM lesions and the limited view under the microscope mean that physicians with extensive diagnostic experience are required to prevent missed diagnosis and misdiagnosis. Feature extraction can significantly improve the accuracy and speed of the diagnostic process. As a remarkable diagnosis assisting technology, computer-aided diagnosis (CAD) has been widely used in clinical practice. We constructed a deep-learning-based CAD system to identify HM hydrops lesions in the microscopic view in real-time. The system consists of three modules; the image mosaic module and edge extension module process the image to improve the outcome of the hydrops lesion recognition module, which adopts a semantic segmentation network, our novel compound loss function, and a stepwise training function in order to achieve the best performance in identifying hydrops lesions. We evaluated our system using an HM hydrops dataset. Experiments show that our system is able to respond in real-time and correctly display the entire microscopic view with accurately labeled HM hydrops lesions.
翻訳日:2022-04-13 02:48:22 公開日:2022-04-11
# (参考訳) hydatidiform mole hydrops lesion recognitionのための複合損失機能付きセグメンテーションネットワーク [全文訳有]

Segmentation Network with Compound Loss Function for Hydatidiform Mole Hydrops Lesion Recognition ( http://arxiv.org/abs/2204.04956v1 )

ライセンス: CC BY 4.0
Chengze Zhu, Pingge Hu, Xianxu Zeng, Xingtong Wang, Zehua Ji and Li Shi(参考訳) 病理形態診断はhydatidiform moleの標準診断法である。 悪性度を有する疾患としては,ヒドロプス病変のヒダチジホルムモール部が重要な診断基準である。 不完全な病変発生のため,早期のヒダチジホルムモールの鑑別は困難であり,臨床診断の精度は低い。 優れた機械学習技術として、多くの医療画像認識タスクで画像セマンティックセグメンテーションネットワークが使用されている。 そこで我々は,新しい損失関数と訓練法に基づくヒダチジフォームモールヒドロプス病変セグメントモデルを開発した。 モデルは、セクションイメージをピクセルと病変レベルに分割する異なるネットワークで構成されている。 複合損失関数は、損失を計算するために2つのレベルのセグメンテーション結果に重みを割り当てる。 次に,異なるレベルにおける各種損失関数の利点を組み合わせるための段階的トレーニング手法を提案する。 本手法はhydatidiform mole hydropsデータセット上で評価する。 実験により,損失関数と訓練法を併用したモデルが,セグメンテーション指標の異なる場合の認識性能が良好であることが判明した。

Pathological morphology diagnosis is the standard diagnosis method of hydatidiform mole. As a disease with malignant potential, the hydatidiform mole section of hydrops lesions is an important basis for diagnosis. Due to incomplete lesion development, early hydatidiform mole is difficult to distinguish, resulting in a low accuracy of clinical diagnosis. As a remarkable machine learning technology, image semantic segmentation networks have been used in many medical image recognition tasks. We developed a hydatidiform mole hydrops lesion segmentation model based on a novel loss function and training method. The model consists of different networks that segment the section image at the pixel and lesion levels. Our compound loss function assign weights to the segmentation results of the two levels to calculate the loss. We then propose a stagewise training method to combine the advantages of various loss functions at different levels. We evaluate our method on a hydatidiform mole hydrops dataset. Experiments show that the proposed model with our loss function and training method has good recognition performance under different segmentation metrics.
翻訳日:2022-04-13 02:31:18 公開日:2022-04-11
# (参考訳) 内視鏡用バイモーダルカメラポース予測 [全文訳有]

Bimodal Camera Pose Prediction for Endoscopy ( http://arxiv.org/abs/2204.04968v1 )

ライセンス: CC BY 4.0
Anita Rau, Binod Bhattarai, Lourdes Agapito, Danail Stoyanov(参考訳) 内視鏡的シーンの3次元構造を画像から推定することは非常に困難である。 変形とビュー依存照明に加えて、結腸のような管状構造は、自己排他的かつ反復的な解剖学的構造から生じる問題を提示する。 本稿では,大腸内視鏡におけるカメラポーズ推定のための合成データセットであるSimColと,内視鏡ポーズ予測のためのバイモーダル分布を明示的に学習する手法を提案する。 我々のデータセットは実際の大腸内視鏡の動きを再現し、既存の方法の欠点を強調します。 シミュレーション大腸内視鏡による18kのRGB画像とそれに対応する深度とカメラのポーズを公開し,Unityのデータ生成環境を一般公開した。 異なるカメラポーズ予測法を評価し,データに基づいてトレーニングすると,実際の大腸内視鏡のシーケンスに一般化し,このバイモーダルアプローチがユニモーダル作業よりも優れていることを示す。

Deducing the 3D structure of endoscopic scenes from images remains extremely challenging. In addition to deformation and view-dependent lighting, tubular structures like the colon present problems stemming from the self-occluding, repetitive anatomical structures. In this paper, we propose SimCol, a synthetic dataset for camera pose estimation in colonoscopy and a novel method that explicitly learns a bimodal distribution to predict the endoscope pose. Our dataset replicates real colonoscope motion and highlights drawbacks of existing methods. We publish 18k RGB images from simulated colonoscopy with corresponding depth and camera poses and make our data generation environment in Unity publicly available. We evaluate different camera pose prediction methods and demonstrate that, when trained on our data, they generalize to real colonoscopy sequences and our bimodal approach outperforms prior unimodal work.
翻訳日:2022-04-13 02:14:18 公開日:2022-04-11
# (参考訳) T-ホップ:グラフ畳み込みネットワークにおける経路のテンソル表現 [全文訳有]

T- Hop: Tensor representation of paths in graph convolutional networks ( http://arxiv.org/abs/2204.04983v1 )

ライセンス: CC BY 4.0
Abdulrahman Ibraheem(参考訳) グラフ内の経路情報を3次元テンソルに符号化する手法について述べる。 導入された経路表現スキームとパワー付き隣接行列との関係を示す。 3次元テンソルで作業する際の重い計算要求を軽減するために,テンソルの深さ軸に次元性還元を適用することを提案する。 次に、縮小された3次元行列を、mixhopのような確立されたグラフ畳み込みネットワークフレームワークに導入することにより、実行可能なグラフ畳み込み層にパーレイすることができる。

We describe a method for encoding path information in graphs into a 3-d tensor. We show a connection between the introduced path representation scheme and powered adjacency matrices. To alleviate the heavy computational demands of working with the 3-d tensor, we propose to apply dimensionality reduction on the depth axis of the tensor. We then describe our the reduced 3-d matrix can be parlayed into a plausible graph convolutional layer, by infusing it into an established graph convolutional network framework such as MixHop.
翻訳日:2022-04-13 01:51:07 公開日:2022-04-11
# (参考訳) gtlo: 一般化および非線形多目的深層強化学習手法 [全文訳有]

gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2204.04988v1 )

ライセンス: CC BY 4.0
Johannes Dornheim(参考訳) 現実の意思決定の最適化では、しばしば複数の競合する目的を考慮に入れなければならない。 古典的強化学習の後、これらの目的を1つの報酬関数にまとめる必要がある。 対照的に、多目的強化学習(MORL)法は、代わりに目的ごとの報酬のベクトルから学習する。 マルチポリシーモールの場合、相反する目的に関する様々な選好に関する一連の決定ポリシーが最適化される。 これは、トレーニング中にターゲットの好みが分かっていない場合や、アプリケーションで好みが動的に変化する場合、特に重要である。 一般に、線形スカラー化に基づくmorlの単目的強化学習法を拡張することは容易であるが、これらの方法で到達可能な解はパレート前線の凸領域に限定される。 Thresholded Lexicographic Ordering (TLO)のような非線形MORL法はこの制限を克服するために設計されている。 一般化されたMORL法は関数近似を利用して目的の選好を一般化し、高次元あるいは連続状態空間の複雑な決定問題であっても、データ効率のよい方法で複数のポリシーを暗黙的に学習する。 本稿では,非線形MORLと一般化MORLの利点を組み合わせることを目的とした新しい手法として,textit{ Generalized Thresholded Lexicographic Ordering} (gTLO)を提案する。 本稿では,本アルゴリズムの深層強化学習の実現と,製造プロセス制御の領域から,非線形MORLの標準ベンチマークと実世界の応用に関する有望な結果を示す。

In real-world decision optimization, often multiple competing objectives must be taken into account. Following classical reinforcement learning, these objectives have to be combined into a single reward function. In contrast, multi-objective reinforcement learning (MORL) methods learn from vectors of per-objective rewards instead. In the case of multi-policy MORL, sets of decision policies for various preferences regarding the conflicting objectives are optimized. This is especially important when target preferences are not known during training or when preferences change dynamically during application. While it is, in general, straightforward to extend a single-objective reinforcement learning method for MORL based on linear scalarization, solutions that are reachable by these methods are limited to convex regions of the Pareto front. Non-linear MORL methods like Thresholded Lexicographic Ordering (TLO) are designed to overcome this limitation. Generalized MORL methods utilize function approximation to generalize across objective preferences and thereby implicitly learn multiple policies in a data-efficient manner, even for complex decision problems with high-dimensional or continuous state spaces. In this work, we propose \textit{generalized Thresholded Lexicographic Ordering} (gTLO), a novel method that aims to combine non-linear MORL with the advantages of generalized MORL. We introduce a deep reinforcement learning realization of the algorithm and present promising results on a standard benchmark for non-linear MORL and a real-world application from the domain of manufacturing process control.
翻訳日:2022-04-13 01:45:50 公開日:2022-04-11
# (参考訳) true: 事実整合性評価の再評価 [全文訳有]

TRUE: Re-evaluating Factual Consistency Evaluation ( http://arxiv.org/abs/2204.04991v1 )

ライセンス: CC BY 4.0
Or Honovich, Roee Aharoni, Jonathan Herzig, Hagai Taitelbaum, Doron Kukliansy, Vered Cohen, Thomas Scialom, Idan Szpektor, Avinatan Hassidim, Yossi Matias(参考訳) 接地テキスト生成システムは、しばしば実際の不一致を含むテキストを生成し、現実世界の適用性を阻害する。 自動事実整合性評価は、評価サイクルを加速し、一貫性のないアウトプットをフィルタリングし、トレーニングデータを強化することで、この制限を緩和する。 注目を集める一方で、このような評価メトリクスは通常、単一のタスクやデータセットのためにサイロで開発され、評価され、採用が遅れる。 さらに,従来のメタ評価プロトコルでは,人間のアノテーションとシステムレベルの相関に重点を置いていた。 本稿では,様々なタスクからの既存のテキストの標準化されたコレクションに関する,事実整合性に関する総合的な研究であるTRUEを紹介する。 本稿の標準化は,従来報告した相関よりも実行可能で解釈可能な,サンプルレベルのメタ評価プロトコルを可能にする。 さまざまな最先端メトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。 私たちはこれらのメソッドを、モデルやメトリクス開発者の出発点として推奨します。

Grounded text generation systems often generate text that contains factual inconsistencies, hindering their real-world applicability. Automatic factual consistency evaluation may help alleviate this limitation by accelerating evaluation cycles, filtering inconsistent outputs and augmenting training data. While attracting increasing attention, such evaluation metrics are usually developed and evaluated in silo for a single task or dataset, slowing their adoption. Moreover, previous meta-evaluation protocols focused on system-level correlations with human annotations, which leave the example-level accuracy of such metrics unclear. In this work, we introduce TRUE: a comprehensive study of factual consistency metrics on a standardized collection of existing texts from diverse tasks, manually annotated for factual consistency. Our standardization enables an example-level meta-evaluation protocol that is more actionable and interpretable than previously reported correlations, yielding clearer quality measures. Across diverse state-of-the-art metrics and 11 datasets we find that large-scale NLI and question generation-and-answe ring-based approaches achieve strong and complementary results. We recommend those methods as a starting point for model and metric developers, and hope TRUE will foster progress towards even better methods.
翻訳日:2022-04-13 01:19:13 公開日:2022-04-11
# (参考訳) Team \'UFAL at CMCL 2022 Shared Task: 事前学習言語モデルを用いた視線追跡機能予測のための正しいレシピを見つける [全文訳有]

Team \'UFAL at CMCL 2022 Shared Task: Figuring out the correct recipe for predicting Eye-Tracking features using Pretrained Language Models ( http://arxiv.org/abs/2204.04998v1 )

ライセンス: CC BY 4.0
Sunit Bhattacharya, Rishu Kumar and Ondrej Bojar(参考訳) 視線追跡データは、人間の認知、特に言語理解を研究する上で非常に有用な情報源である。 本稿では,cmcl 2022における視線追跡情報予測のための共有タスクについて述べる。 bert や xlm などの事前学習モデルを用いた実験と,これらの表現を用いた4つの視線追跡特徴の予測方法について述べる。 事前訓練された2種類の多言語言語モデルとトークンレベル表現のプール方法の効果を分析するとともに、文脈情報がシステムの性能に与える影響についても検討する。 最後に,言語情報強化などの要因が予測に与える影響についても検討する。 提案は平均5.72のMAEを達成し,共有タスクでは5位となった。 作業後評価では,MAEは5.25にさらに低下した。

Eye-Tracking data is a very useful source of information to study cognition and especially language comprehension in humans. In this paper, we describe our systems for the CMCL 2022 shared task on predicting eye-tracking information. We describe our experiments with pretrained models like BERT and XLM and the different ways in which we used those representations to predict four eye-tracking features. Along with analysing the effect of using two different kinds of pretrained multilingual language models and different ways of pooling the tokenlevel representations, we also explore how contextual information affects the performance of the systems. Finally, we also explore if factors like augmenting linguistic information affect the predictions. Our submissions achieved an average MAE of 5.72 and ranked 5th in the shared task. The average MAE showed further reduction to 5.25 in post task evaluation.
翻訳日:2022-04-13 00:58:27 公開日:2022-04-11
# (参考訳) 機械学習とディープラーニング - 生態学者へのレビュー

Machine Learning and Deep Learning -- A review for Ecologists ( http://arxiv.org/abs/2204.05023v1 )

ライセンス: CC BY 4.0
Maximilian Pichler and Florian Hartig(参考訳) 近年、機械学習(ML)、ディープラーニング(DL)、人工知能(AI)の人気が高まっている。 mlアルゴリズムとdlアルゴリズムの内部動作は不透明であり、古典的なデータ分析ツールとの関係については議論が続いている。 MLとDLは主に予測を行うのに優れていると仮定されることが多い。 しかし、近年は、伝統的に統計モデルによってカバーされた古典的分析タスクに益々使われている。 さらに、MLに関する最近のレビューはDLのみに焦点を当てており、さまざまな利点と一般的な原則でMLアルゴリズムの豊富な合成を欠いている。 ここでは,ML と DL の総合的な概要について述べる。その歴史的発展,アルゴリズムファミリー,従来の統計ツールとの差異,ユニバーサルML の原則などである。 次に, ml と dl が予測タスクに優れている理由と, 従来の統計的推論手法に代わる選択肢を提供し, 生態学的問題に対する現在および新興の応用を強調する。 最後に、新たなトレンド、特に科学的および因果的ML、説明可能なAI、そして将来生態学的データ分析に大きな影響を与える可能性のある責任あるAIを要約する。

The popularity of Machine learning (ML), Deep learning (DL), and Artificial intelligence (AI) has sharply risen in recent years. Despite their spike in popularity, the inner workings of ML and DL algorithms are perceived as opaque, and their relationship to classical data analysis tools remains debated. It is often assumed that ML and DL excel primarily at making predictions. Recently, however, they have been increasingly used for classical analytical tasks traditionally covered by statistical models. Moreover, recent reviews on ML have focused exclusively on DL, missing out on synthesizing the wealth of ML algorithms with different advantages and general principles. Here, we provide a comprehensive overview of ML and DL, starting with their historical developments, their algorithm families, their differences from traditional statistical tools, and universal ML principles. We then discuss why and when ML and DL excel at prediction tasks, and where they could offer alternatives to traditional statistical methods for inference, highlighting current and emerging applications for ecological problems. Finally, we summarize emerging trends, particularly scientific and causal ML, explainable AI, and responsible AI that may significantly impact ecological data analysis in the future.
翻訳日:2022-04-13 00:50:34 公開日:2022-04-11
# (参考訳) 強化学習を用いた多目的COVID-19緩和政策のPareto前線の探索 [全文訳有]

Exploring the Pareto front of multi-objective COVID-19 mitigation policies using reinforcement learning ( http://arxiv.org/abs/2204.05027v1 )

ライセンス: CC BY 4.0
Mathieu Reymond, Conor F. Hayes, Lander Willem, Roxana R\u{a}dulescu, Steven Abrams, Diederik M. Roijers, Enda Howley, Patrick Mannion, Niel Hens, Ann Now\'e, Pieter Libin(参考訳) 感染症の発生は公衆衛生や社会プロセスに破壊的な影響を及ぼす可能性がある。 流行緩和の文脈での意思決定が難しいため、強化学習は複雑な流行モデルと組み合わせて予防戦略を自動的に学習する手法を提供する。 現在の研究は、病原体の攻撃率など、単一の目的に対してポリシーを最適化することに焦点を当てている。 しかし、流行の緩和には異なる基準(死亡率、死亡率、死亡率、コスト)が伴うため、バランスの取れた政策を学ぶための多目的アプローチが求められる。 この意思決定プロセスを現実世界の流行モデルに高めるため、我々は深層多目的強化学習を適用し、最先端のアルゴリズムであるPareto Conditioned Networks (PCN) を構築し、意思決定問題のParetoを近似した一連のソリューションを学ぶ。 ロックダウンによって緩和されたベルギーの新型コロナウイルス感染症の第1波について検討し,感染や入院など)と緩和策によって引き起こされる社会的負担を最小化することを目的とした,さまざまな分離戦略を検討した。 新型コロナウイルスの感染拡大に伴う政策立案者への通知に使われた確率的コンパートメントモデルをカプセル化した多目的マルコフ決定プロセスに貢献する。 これらの社会的緩和策が, 年齢構造的流行モデルの接触行列を変調する連続的な行動空間で実施されるので, pcnをこの設定に拡張する。 我々は,PCNが返却したソリューションを評価し,入院率が十分に低い場合に社会負担を軽減することを正しく学習することを確認する。 本研究では,多目的強化学習が複雑な疫学モデルで実現可能であることを示し,複雑な緩和政策のバランスをとる上で不可欠な知見を提供する。

Infectious disease outbreaks can have a disruptive impact on public health and societal processes. As decision making in the context of epidemic mitigation is hard, reinforcement learning provides a methodology to automatically learn prevention strategies in combination with complex epidemic models. Current research focuses on optimizing policies w.r.t. a single objective, such as the pathogen's attack rate. However, as the mitigation of epidemics involves distinct, and possibly conflicting criteria (i.a., prevalence, mortality, morbidity, cost), a multi-objective approach is warranted to learn balanced policies. To lift this decision-making process to real-world epidemic models, we apply deep multi-objective reinforcement learning and build upon a state-of-the-art algorithm, Pareto Conditioned Networks (PCN), to learn a set of solutions that approximates the Pareto front of the decision problem. We consider the first wave of the Belgian COVID-19 epidemic, which was mitigated by a lockdown, and study different deconfinement strategies, aiming to minimize both COVID-19 cases (i.e., infections and hospitalizations) and the societal burden that is induced by the applied mitigation measures. We contribute a multi-objective Markov decision process that encapsulates the stochastic compartment model that was used to inform policy makers during the COVID-19 epidemic. As these social mitigation measures are implemented in a continuous action space that modulates the contact matrix of the age-structured epidemic model, we extend PCN to this setting. We evaluate the solution returned by PCN, and observe that it correctly learns to reduce the social burden whenever the hospitalization rates are sufficiently low. In this work, we thus show that multi-objective reinforcement learning is attainable in complex epidemiological models and provides essential insights to balance complex mitigation policies.
翻訳日:2022-04-13 00:49:29 公開日:2022-04-11
# (参考訳) pareto条件付きネットワーク [全文訳有]

Pareto Conditioned Networks ( http://arxiv.org/abs/2204.05036v1 )

ライセンス: CC BY 4.0
Mathieu Reymond, Eugenio Bargiacchi, Ann Now\'e(参考訳) 多目的最適化では、pareto効率のよいソリューションに到達するすべてのポリシーを学ぶのは、高価なプロセスです。 最適政策の集合は目的数とともに指数関数的に成長し、全ての解を回収するには、状態空間全体を徹底的に探索する必要がある。 本研究では,1つのニューラルネットワークを用いてすべての非支配ポリシーを包含するPareto Conditioned Networks (PCN)を提案する。 PCNは過去の変遷とエピソードの帰還を関連付けている。 ネットワークをトレーニングすることで、同じリターンで条件付けされた場合、その移行を再現する。 これにより、最適化問題を分類問題に変換する。 我々は,ネットワークを所望のパレート効率のよいソリューションに条件付けすることで,具体的な方針を回復する。 提案手法は教師付き方式で学習することで安定しており,移動目標問題を回避することができる。 さらに、単一のネットワークを使用することで、pcnは目的数で効率的にスケールする。 最後に、paretoフロントの形状に関する仮定を最小にすることで、従来の最先端のマルチ目的強化学習アルゴリズムよりも幅広い問題に適している。

In multi-objective optimization, learning all the policies that reach Pareto-efficient solutions is an expensive process. The set of optimal policies can grow exponentially with the number of objectives, and recovering all solutions requires an exhaustive exploration of the entire state space. We propose Pareto Conditioned Networks (PCN), a method that uses a single neural network to encompass all non-dominated policies. PCN associates every past transition with its episode's return. It trains the network such that, when conditioned on this same return, it should reenact said transition. In doing so we transform the optimization problem into a classification problem. We recover a concrete policy by conditioning the network on the desired Pareto-efficient solution. Our method is stable as it learns in a supervised fashion, thus avoiding moving target issues. Moreover, by using a single network, PCN scales efficiently with the number of objectives. Finally, it makes minimal assumptions on the shape of the Pareto front, which makes it suitable to a wider range of problems than previous state-of-the-art multi-objective reinforcement learning algorithms.
翻訳日:2022-04-13 00:26:27 公開日:2022-04-11
# (参考訳) トルコの自然言語処理のための資源 : 批判的調査

Resources for Turkish Natural Language Processing: A critical survey ( http://arxiv.org/abs/2204.05042v1 )

ライセンス: CC BY 4.0
\c{C}a\u{g}r{\i} \c{C}\"oltekin, A. Seza Do\u{g}ru\"oz, \"Ozlem \c{C}etino\u{g}lu(参考訳) 本稿では,トルコのコーパスと語彙資源に関する包括的調査を行う。 我々は、広く利用可能なリソースに注目して、幅広いリソースをレビューする。 本稿では,利用可能な言語資源に関する情報の提供に加えて,トルコ語言語学や自然言語処理における研究と応用を行う上で利用可能なデータのギャップを明らかにする。

This paper presents a comprehensive survey of corpora and lexical resources available for Turkish. We review a broad range of resources, focusing on the ones that are publicly available. In addition to providing information about the available linguistic resources, we present a set of recommendations, and identify gaps in the data available for conducting research and building applications in Turkish Linguistics and Natural Language Processing.
翻訳日:2022-04-13 00:12:02 公開日:2022-04-11
# (参考訳) SAL-CNN:時間周波数情報を用いた軸受の寿命推定 [全文訳有]

SAL-CNN: Estimate the Remaining Useful Life of Bearings Using Time-frequency Information ( http://arxiv.org/abs/2204.05045v1 )

ライセンス: CC BY 4.0
Bingguo Liu, Zhuo Gao, Binghui Lu, Hangcheng Dong and Zeru An(参考訳) 現代の工業生産において、軸受の残りの有用寿命(RUL)の予測能力は、システムの安全性と安定性に直接影響を及ぼす。 従来の手法では厳密な物理モデリングが必要であり、複雑なシステムでは不十分である。 本稿では,短時間フーリエ変換(STFT)を前処理として,エンドツーエンドのRUL予測手法を提案する。 信号系列の時間相関を考慮すると、cnnにおいて、畳み込みブロックアテンションモジュールを組み込んだ長期および短期記憶ネットワークが設計され、解釈可能性レベルからネットワークの意思決定過程を理解する。 2012phmデータセット上で実験を行い,他の手法と比較し,本手法の有効性を実証した。

In modern industrial production, the prediction ability of the remaining useful life (RUL) of bearings directly affects the safety and stability of the system. Traditional methods require rigorous physical modeling and perform poorly for complex systems. In this paper, an end-to-end RUL prediction method is proposed, which uses short-time Fourier transform (STFT) as preprocessing. Considering the time correlation of signal sequences, a long and short-term memory network is designed in CNN, incorporating the convolutional block attention module, and understanding the decision-making process of the network from the interpretability level. Experiments were carried out on the 2012PHM dataset and compared with other methods, and the results proved the effectiveness of the method.
翻訳日:2022-04-13 00:10:33 公開日:2022-04-11
# (参考訳) 複雑性測定とは何か? コーパスに基づく形態的複雑性の関連と検証 [全文訳有]

What do complexity measures measure? Correlating and validating corpus-based measures of morphological complexity ( http://arxiv.org/abs/2204.05056v1 )

ライセンス: CC BY 4.0
\c{C}a\u{g}r{\i} \c{C}\"oltekin and Taraka Rama(参考訳) 本稿では,自然言語の形態的複雑性の定量化に用いる8つの尺度について述べる。 本研究は,コーパスアノテーションの要件の異なる形態的複雑性のコーパスベース尺度である。 これらの指標の類似性と差異を視覚的および相関分析により明らかにし,関連するタイプ変数との関連性について検討した。 分析では,これらの「測度」が同じ基底変数の測度なのか,あるいは1次元以上の形態的複雑性の測度なのかに注目した。 主成分分析は、第一主成分が8つの測度の変動の92.62 %を説明することを示し、研究した複雑性測度間の強い線形依存を示す。

We present an analysis of eight measures used for quantifying morphological complexity of natural languages. The measures we study are corpus-based measures of morphological complexity with varying requirements for corpus annotation. We present similarities and differences between these measures visually and through correlation analyses, as well as their relation to the relevant typological variables. Our analysis focuses on whether these `measures' are measures of the same underlying variable, or whether they measure more than one dimension of morphological complexity. The principal component analysis indicates that the first principal component explains 92.62 % of the variation in eight measures, indicating a strong linear dependence between the complexity measures studied.
翻訳日:2022-04-13 00:03:25 公開日:2022-04-11
# (参考訳) hft: ハイブリッド機能変換による視点表現の引き上げ [全文訳有]

HFT: Lifting Perspective Representations via Hybrid Feature Transformation ( http://arxiv.org/abs/2204.05068v1 )

ライセンス: CC BY 4.0
Jiayu Zou, Junrui Xiao, Zheng Zhu, Junjie Huang, Guan Huang, Dalong Du, Xingang Wang(参考訳) 自律運転には意思決定のための正確で詳細なBird's Eye View (BEV)セマンティックセマンティックセグメンテーションが必要である。 フロントビューからBEVへの特徴変換は、BEVセマンティックセグメンテーションの重要な技術である。 既存の作品は、カメラモデルベース特徴変換(CBFT)とカメラモデルフリー特徴変換(CFFT)の2つのカテゴリに分類される。 本稿では,CBFTとCFFTの相違点を実験的に解析する。 前者は平面上に位置する領域の歪みを引き起こすフラットワールドの仮定に基づいて特徴を変換する。 後者は、幾何学的な事前処理や時間を要する計算がないため、セグメンテーション性能に制限がある。 cbftとcfftのメリットを享受し,欠点を回避するために,ハイブリッド機能変換モジュール(hft)を用いた新しいフレームワークを提案する。 具体的には,hft が生成する特徴マップを分離し,bev の屋外シーンのレイアウトを推定する。 さらに,特徴模倣を適用し,ハイブリッドトランスフォーメーションを促進するための相互学習スキームを考案する。 特に、膨大な実験により、HFTはArgoverseデータセットで13.3%、KITTI 3Dオブジェクトデータセットで16.8%の相対的な改善を達成している。 コードはhttps://github.com/j iayuzou2020/hftで入手できる。

Autonomous driving requires accurate and detailed Bird's Eye View (BEV) semantic segmentation for decision making, which is one of the most challenging tasks for high-level scene perception. Feature transformation from frontal view to BEV is the pivotal technology for BEV semantic segmentation. Existing works can be roughly classified into two categories, i.e., Camera model-Based Feature Transformation (CBFT) and Camera model-Free Feature Transformation (CFFT). In this paper, we empirically analyze the vital differences between CBFT and CFFT. The former transforms features based on the flat-world assumption, which may cause distortion of regions lying above the ground plane. The latter is limited in the segmentation performance due to the absence of geometric priors and time-consuming computation. In order to reap the benefits and avoid the drawbacks of CBFT and CFFT, we propose a novel framework with a Hybrid Feature Transformation module (HFT). Specifically, we decouple the feature maps produced by HFT for estimating the layout of outdoor scenes in BEV. Furthermore, we design a mutual learning scheme to augment hybrid transformation by applying feature mimicking. Notably, extensive experiments demonstrate that with negligible extra overhead, HFT achieves a relative improvement of 13.3% on the Argoverse dataset and 16.8% on the KITTI 3D Object datasets compared to the best-performing existing method. The codes are available at https://github.com/J iayuZou2020/HFT.
翻訳日:2022-04-12 23:44:26 公開日:2022-04-11
# (参考訳) 教師なし機械学習アルゴリズムを用いたゼロフェーズアングル小惑星分類分類 [全文訳有]

Zero-phase angle asteroid taxonomy classification using unsupervised machine learning algorithms ( http://arxiv.org/abs/2204.05075v1 )

ライセンス: CC BY 4.0
M. Colazo, A. Alvarez-Candal, and R. Duffard(参考訳) 私たちは大規模なカタログの時代にあり、機械学習のような大規模データセットの統計分析ツールが基本的な役割を担っています。 そのような調査の例としては、スローン移動物体カタログ(moc)があり、スローンの視野で捉えた全ての移動物体の星表と測光情報をリストアップしている。 この望遠鏡の大きな利点の1つは5つのフィルターによって表現され、色を研究することによって小惑星の分類学的分析を可能にする。 しかし、これまでは、物体の位相角の変化による色の変化は考慮されていない。 本稿では,この問題を分類に絶対等級を用いることで解決する。 本研究の目的は, 位相角の変化による変動の影響を受けない大きさに基づいて, 小惑星の新しい分類法を作ることである。 我々はHG12系を用いてSloan moving Objects Catalogから計算したHg, Hi, Hzの絶対等級9481個の小惑星を選択した。 私たちは彼らと絶対色を計算した。 分類分類を行うために,ファジィC平均と呼ばれる教師なし機械学習アルゴリズムを適用した。 これは、異なるグループが完全に分離されておらず、それらの間に重複する領域がある{dataset}を扱うのに有用なソフトクラスタリングツールである。 我々は、既知のスペクトル特性のほとんどを構成するため、c、s、x、vの4つの主分類群を扱うことを選んだ。 分類群に属する確率が60%を超える6329個の小惑星を分類した。 平面セミマジュール軸と傾斜角で得られた試料を解析し,V型小惑星候補をVesta領域外から15個同定した。

We are in an era of large catalogs and, thus, statistical analysis tools for large data sets, such as machine learning, play a fundamental role. One example of such a survey is the Sloan Moving Object Catalog (MOC), which lists the astrometric and photometric information of all moving objects captured by the Sloan field of view. One great advantage of this telescope is represented by its set of five filters, allowing for taxonomic analysis of asteroids by studying their colors. However, until now, the color variation produced by the change of phase angle of the object has not been taken into account. In this paper, we address this issue by using absolute magnitudes for classification. We aim to produce a new taxonomic classification of asteroids based on their magnitudes that is unaffected by variations caused by the change in phase angle. We selected 9481 asteroids with absolute magnitudes of Hg, Hi and Hz, computed from the Sloan Moving Objects Catalog using the HG12 system. We calculated the absolute colors with them. To perform the taxonomic classification, we applied a unsupervised machine learning algorithm known as fuzzy C-means. This is a useful soft clustering tool for working with {data sets where the different groups are not completely separated and there are regions of overlap between them. We have chosen to work with the four main taxonomic complexes, C, S, X, and V, as they comprise most of the known spectral characteristics. We classified a total of 6329 asteroids with more than 60% probability of belonging to the assigned taxonomic class, with 162 of these objects having been characterized by an ambiguous classification in the past. By analyzing the sample obtained in the plane Semimajor axis versus inclination, we identified 15 new V-type asteroid candidates outside the Vesta family region.
翻訳日:2022-04-12 23:28:53 公開日:2022-04-11
# (参考訳) コード切り換え音声のエンドツーエンド音声翻訳 [全文訳有]

End-to-End Speech Translation for Code Switched Speech ( http://arxiv.org/abs/2204.05076v1 )

ライセンス: CC BY 4.0
Orion Weller, Matthias Sperber, Telmo Pires, Hendra Setiawan, Christian Gollan, Dominic Telaar, Matthias Paulik(参考訳) コードスイッチング(Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。 CSは、基礎となるシステムの単言語的性質がしばしばあるため、NLPにかなりの精度の課題をもたらす可能性がある。 本研究では,音声翻訳作業(ST)における英語・スペイン語会話の文脈におけるCSに着目し,テキストと翻訳の両方を生成・評価する。 このタスクにおけるモデル性能を評価するために、既存の公開データセットから派生した新しいSTコーパスを作成する。 カスケード(翻訳後翻訳)とエンド・ツー・エンド(共同翻訳と翻訳)と一方向(ソース ->ターゲット)と双方向(ソース <->ターゲット)の2次元にわたる様々なstアーキテクチャについて検討した。 我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。

Code switching (CS) refers to the phenomenon of interchangeably using words and phrases from different languages. CS can pose significant accuracy challenges to NLP, due to the often monolingual nature of the underlying systems. In this work, we focus on CS in the context of English/Spanish conversations for the task of speech translation (ST), generating and evaluating both transcript and translation. To evaluate model performance on this task, we create a novel ST corpus derived from existing public data sets. We explore various ST architectures across two dimensions: cascaded (transcribe then translate) vs end-to-end (jointly transcribe and translate) and unidirectional (source -> target) vs bidirectional (source <-> target). We show that our ST architectures, and especially our bidirectional end-to-end architecture, perform well on CS speech, even when no CS training data is used.
翻訳日:2022-04-12 23:05:53 公開日:2022-04-11
# (参考訳) ニューラルネットワークを用いたハミルトン系の学習軌道 [全文訳有]

Learning Trajectories of Hamiltonian Systems with Neural Networks ( http://arxiv.org/abs/2204.05077v1 )

ライセンス: CC BY 4.0
Katsiaryna Haitsiukevich and Alexander Ilin(参考訳) ニューラルネットワークを用いた保守的システムのモデリングは活発な研究の領域である。 一般的なアプローチは、ハミルトンの運動方程式で保守的なシステムが記述されるという仮定に依存するハミルトンニューラルネットワーク(HNN)を使用することである。 最近の多くの研究は、HNNのトレーニングで使用される統合スキームの改善に焦点を当てている。 本研究では,本論文では,ニューラルネットワークを用いたモデルシステムの連続的軌跡を推定することにより,HNNの強化を提案する。 提案手法は,低サンプリング率,雑音,不規則な観測において,HNNに対して有効であることを示す。

Modeling of conservative systems with neural networks is an area of active research. A popular approach is to use Hamiltonian neural networks (HNNs) which rely on the assumptions that a conservative system is described with Hamilton's equations of motion. Many recent works focus on improving the integration schemes used when training HNNs. In this work, we propose to enhance HNNs with an estimation of a continuous-time trajectory of the modeled system using an additional neural network, called a deep hidden physics model in the literature. We demonstrate that the proposed integration scheme works well for HNNs, especially with low sampling rates, noisy and irregular observations.
翻訳日:2022-04-12 22:47:20 公開日:2022-04-11
# (参考訳) 逆)報酬設計としての言語コミュニケーション [全文訳有]

Linguistic communication as (inverse) reward design ( http://arxiv.org/abs/2204.05091v1 )

ライセンス: CC BY 4.0
Theodore R. Sumers, Robert D. Hawkins, Mark K. Ho, Thomas L. Griffiths, Dylan Hadfield-Menell(参考訳) 自然言語は、自律エージェントに報酬情報を伝達する直感的で表現力のある方法である。 具体的な指示から世界の抽象的な記述まで、あらゆるものを含んでいる。 それにもかかわらず、自然言語は、しばしば学ぶのが難しい。機械学習の手法が、このような幅広い入力から適切な推論を行うことは困難である。 本稿では,言語コミュニケーションの統一原則としての報酬設計の一般化を提案する。話者は,聞き手の将来行動から期待される報酬を最大化するために発話を選択する。 まず報酬設計を拡張し、未知の将来の状態についての推論を線形帯域設定で組み込む。 次に、この目的に従って発話を選択する話者モデルを定義する。 シミュレーションでは、短い水平話者(主に1つの既知の状態)は命令を使う傾向があり、長い水平話者(主に未知、将来の状態)は報酬関数を記述する傾向にある。 次に,話者の潜在地平線と報酬を共同で推定し,逆報酬設計を行う実用的リスナを定義する。 本研究は, 言語コミュニケーションへの報酬設計の延長, 潜在話者水平線の概念は, 自然言語の監督によるより堅牢なアライメント結果を達成する上で有望な方向であることを示唆している。

Natural language is an intuitive and expressive way to communicate reward information to autonomous agents. It encompasses everything from concrete instructions to abstract descriptions of the world. Despite this, natural language is often challenging to learn from: it is difficult for machine learning methods to make appropriate inferences from such a wide range of input. This paper proposes a generalization of reward design as a unifying principle to ground linguistic communication: speakers choose utterances to maximize expected rewards from the listener's future behaviors. We first extend reward design to incorporate reasoning about unknown future states in a linear bandit setting. We then define a speaker model which chooses utterances according to this objective. Simulations show that short-horizon speakers (reasoning primarily about a single, known state) tend to use instructions, while long-horizon speakers (reasoning primarily about unknown, future states) tend to describe the reward function. We then define a pragmatic listener which performs inverse reward design by jointly inferring the speaker's latent horizon and rewards. Our findings suggest that this extension of reward design to linguistic communication, including the notion of a latent speaker horizon, is a promising direction for achieving more robust alignment outcomes from natural language supervision.
翻訳日:2022-04-12 22:23:58 公開日:2022-04-11
# (参考訳) モデルアンサンブルを用いた物理形ニューラルネットワークのトレーニング改善 [全文訳有]

Improved Training of Physics-Informed Neural Networks with Model Ensembles ( http://arxiv.org/abs/2204.05108v1 )

ライセンス: CC BY 4.0
Katsiaryna Haitsiukevich and Alexander Ilin(参考訳) ニューラルネットワークによる偏微分方程式(PDE)の解法(物理学的インフォームドニューラルネットワーク、PINN)を学習することは、そのエレガントさ、柔軟性、観測データの導入の容易さにより、従来の解法に代わる魅力的な方法である。 しかし、PINNの訓練は実践的には非常に難しい。 1つの問題は、解区間が大きすぎるとPINNにとって魅力的な複数の単純(しかし間違った)解が存在することである。 本稿では,解区間を徐々に拡大してPINNを正しい解に収束させる手法を提案する。 解区間拡大のための適切なスケジュールを見つけるために、PINNのアンサンブルを訓練する。 この考え方では、全てのアンサンブルメンバーは観測データ(例えば初期条件)の近くで同じ解に収束するが、観測から遠く離れた異なる間違った解へと引き寄せられる可能性がある。 そこで我々は,PDEから得られた損失を計算するための新たなポイントを含むための基準として,アンサンブル合意を用いる。 本研究では,提案手法が解の精度を向上させることを実験的に示す。

Learning the solution of partial differential equations (PDEs) with a neural network (known in the literature as a physics-informed neural network, PINN) is an attractive alternative to traditional solvers due to its elegancy, greater flexibility and the ease of incorporating observed data. However, training PINNs is notoriously difficult in practice. One problem is the existence of multiple simple (but wrong) solutions which are attractive for PINNs when the solution interval is too large. In this paper, we propose to expand the solution interval gradually to make the PINN converge to the correct solution. To find a good schedule for the solution interval expansion, we train an ensemble of PINNs. The idea is that all ensemble members converge to the same solution in the vicinity of observed data (e.g., initial conditions) while they may be pulled towards different wrong solutions farther away from the observations. Therefore, we use the ensemble agreement as the criterion for including new points for computing the loss derived from PDEs. We show experimentally that the proposed method can improve the accuracy of the found solution.
翻訳日:2022-04-12 22:16:29 公開日:2022-04-11
# (参考訳) SoK: 機能暗号化を用いたマシンラーニングのプライバシ保護 - 機会と課題 [全文訳有]

SoK: Privacy Preserving Machine Learning using Functional Encryption: Opportunities and Challenges ( http://arxiv.org/abs/2204.05136v1 )

ライセンス: CC BY 4.0
Prajwal Panzade and Daniel Takabi(参考訳) 関数型暗号化の出現により、暗号化データの計算に新たな可能性が生まれた。 関数暗号化により、データ所有者は入力を開示することなく、特定の計算を行うためのサードパーティへのアクセスを許可することができる。 また、完全同型暗号化とは異なり、計算結果を平易に提供する。 機械学習のユビキタス性は、クラウドコンピューティング環境における膨大なプライベートデータの収集につながった。 これにより、潜在的なプライバシー問題と、よりプライベートでセキュアなコンピューティングソリューションの必要性が生じる。 セキュリティとプライバシの懸念に対処するため、プライバシ保護機械学習(PPML)に多くの取り組みがなされている。 完全準同型暗号(fhe)、セキュア・マルチパーティ・計算(smc)、さらに最近では機能的暗号化(fe)に基づく手法がある。 しかし、FEベースのPPMLはまだ初期段階であり、FHEベースのPPMLアプローチと比べてあまり注目されていない。 本稿では,本論文におけるfeの要約に基づくppml作品の体系化について述べる。 PPMLアプリケーションのための内積-FEと準積-FEに基づく機械学習モデルに焦点を当てる。 利用可能なFEライブラリとそのアプリケーションの性能とユーザビリティをPPMLに解析する。 また、FEベースのPPMLアプローチの可能性についても論じる。 私たちの知る限りでは、FEベースのPPMLアプローチを体系化する最初の作業です。

With the advent of functional encryption, new possibilities for computation on encrypted data have arisen. Functional Encryption enables data owners to grant third-party access to perform specified computations without disclosing their inputs. It also provides computation results in plain, unlike Fully Homomorphic Encryption. The ubiquitousness of machine learning has led to the collection of massive private data in the cloud computing environment. This raises potential privacy issues and the need for more private and secure computing solutions. Numerous efforts have been made in privacy-preserving machine learning (PPML) to address security and privacy concerns. There are approaches based on fully homomorphic encryption (FHE), secure multiparty computation (SMC), and, more recently, functional encryption (FE). However, FE-based PPML is still in its infancy and has not yet gotten much attention compared to FHE-based PPML approaches. In this paper, we provide a systematization of PPML works based on FE summarizing state-of-the-art in the literature. We focus on Inner-product-FE and Quadratic-FE-based machine learning models for the PPML applications. We analyze the performance and usability of the available FE libraries and their applications to PPML. We also discuss potential directions for FE-based PPML approaches. To the best of our knowledge, this is the first work to systematize FE-based PPML approaches.
翻訳日:2022-04-12 22:03:51 公開日:2022-04-11
# (参考訳) グラフニューラルネットワークを用いた物体中心オートテリック行動の学習 [全文訳有]

Learning Object-Centered Autotelic Behaviors with Graph Neural Networks ( http://arxiv.org/abs/2204.05141v1 )

ライセンス: CC BY 4.0
Ahmed Akakzia, Olivier Sigaud(参考訳) 人間はオープンエンドの世界に住んでいて、新しい課題に無限に直面しているが、次の課題に直面するたびにスクラッチから学ぶ必要はない。 むしろ、彼らはいくつかの学習されたスキルにアクセスでき、新しい状況に迅速に適応する。 人工知能では、本来の目的を表現し、設定するために動機づけられたオートテリックエージェントは、有望なスキル適応能力を示す。 しかし、これらの能力は政策や目標空間の表現によって非常に制約されている。 本稿では,これらの表現が自律エージェントの学習能力に与える影響について検討する。 本研究では,4種類のグラフニューラルネットワークのポリシー表現と,幾何学的あるいは述語的な2種類の目標空間を用いて,オートテリックエージェントの異なる実装について検討する。 セマンティックリレーショナルゴールと十分に表現可能なオブジェクト指向アーキテクチャを組み合わせることで,スキル間の効率的な伝達が可能になり,行動多様性が促進されることを示す。 グラフベースの実装もリリースし、この方向のさらなる研究を奨励しています。

Although humans live in an open-ended world and endlessly face new challenges, they do not have to learn from scratch each time they face the next one. Rather, they have access to a handful of previously learned skills, which they rapidly adapt to new situations. In artificial intelligence, autotelic agents, which are intrinsically motivated to represent and set their own goals, exhibit promising skill adaptation capabilities. However, these capabilities are highly constrained by their policy and goal space representations. In this paper, we propose to investigate the impact of these representations on the learning capabilities of autotelic agents. We study different implementations of autotelic agents using four types of Graph Neural Networks policy representations and two types of goal spaces, either geometric or predicate-based. We show that combining object-centered architectures that are expressive enough with semantic relational goals enables an efficient transfer between skills and promotes behavioral diversity. We also release our graph-based implementations to encourage further research in this direction.
翻訳日:2022-04-12 21:47:18 公開日:2022-04-11
# (参考訳) Render と Compare による焦点長とオブジェクトポス推定 [全文訳有]

Focal Length and Object Pose Estimation via Render and Compare ( http://arxiv.org/abs/2204.05145v1 )

ライセンス: CC BY 4.0
Georgy Ponimatkin, Yann Labb\'e, Bryan Russell, Mathieu Aubry, Josef Sivic(参考訳) 本稿では,カメラオブジェクトの6Dポーズとカメラ焦点長を同時推定するニューラルレンダリング・アンド・コンペア手法であるFocalPoseを紹介する。 この作品の貢献は2つある。 まず,既存の最先端のレンダリング・アンド・コンパレント6Dポーズ推定を拡張した焦点長更新ルールを導出し,共同推定課題に対処する。 第2に,物体のポーズと焦点距離を同時推定する複数の異なる損失関数について検討する。 直接焦点長の回帰と再投射損失の組み合わせは, 翻訳, 回転, 焦点長の寄与を阻害し, 結果の改善につながることがわかった。 既知の3dモデルを無制御設定で表現した,3つの難解なベンチマークデータセットで結果を示す。 我々の焦点長と6次元ポーズ推定値が既存の最先端手法よりも誤差が低いことを示す。

We introduce FocalPose, a neural render-and-compare method for jointly estimating the camera-object 6D pose and camera focal length given a single RGB input image depicting a known object. The contributions of this work are twofold. First, we derive a focal length update rule that extends an existing state-of-the-art render-and-compare 6D pose estimator to address the joint estimation task. Second, we investigate several different loss functions for jointly estimating the object pose and focal length. We find that a combination of direct focal length regression with a reprojection loss disentangling the contribution of translation, rotation, and focal length leads to improved results. We show results on three challenging benchmark datasets that depict known 3D models in uncontrolled settings. We demonstrate that our focal length and 6D pose estimates have lower error than the existing state-of-the-art methods.
翻訳日:2022-04-12 21:31:12 公開日:2022-04-11
# (参考訳) 隣接近傍のコントラスト学習を用いた音声系列埋め込み [全文訳有]

Speech Sequence Embeddings using Nearest Neighbors Contrastive Learning ( http://arxiv.org/abs/2204.05148v1 )

ライセンス: CC BY 4.0
Algayres Robin, Adel Nabli, Benoit Sagot, Emmanuel Dupoux(参考訳) 我々は、データ強化k-Nearest Neighbors探索から正のサンプルを得る、教師なしのコントラスト学習目標を用いて、訓練可能な単純なニューラルエンコーダアーキテクチャを導入する。 最近の自己教師付き音声表現の上に構築された場合、この手法は反復的に適用でき、2つのタスク(音声のランダムシーケンスのクエリバイサンプル、音声項発見)で評価される競合sseが得られる。 両方のタスクにおいて、我々の手法は5つの異なる言語にまたがって最先端の言語を押し付けます。 最後に、librispeechデータセットのクエリバイサンプルタスクのベンチマークを確立し、フィールドの将来的な改善を監視する。

We introduce a simple neural encoder architecture that can be trained using an unsupervised contrastive learning objective which gets its positive samples from data-augmented k-Nearest Neighbors search. We show that when built on top of recent self-supervised audio representations, this method can be applied iteratively and yield competitive SSE as evaluated on two tasks: query-by-example of random sequences of speech, and spoken term discovery. On both tasks our method pushes the state-of-the-art by a significant margin across 5 different languages. Finally, we establish a benchmark on a query-by-example task on the LibriSpeech dataset to monitor future improvements in the field.
翻訳日:2022-04-12 21:07:18 公開日:2022-04-11
# (参考訳) タスク指向対話システムにおける未認識ユーザ発話の獲得 [全文訳有]

Gaining Insights into Unrecognized User Utterances in Task-Oriented Dialog Systems ( http://arxiv.org/abs/2204.05158v1 )

ライセンス: CC BY 4.0
Ella Rabinovich, Matan Vetzler, David Boaz, Vineet Kumar, Gaurav Pandey, Ateret Anaby-Tavor(参考訳) 目標指向行動が可能な対話エージェントの市場需要が急速に高まり、多くの技術系リーダーがタスク指向対話システムに多大な投資をしている。 これらのシステムのパフォーマンスと成功は、ユーザの要求の目標や意味を推論し、さらに処理するための既知の意図の1つにマッピングするプロセスである、意図の同定の正確さに大きく依存している。未認識の発話に対する洞察を得る -- システムが既知の意図を原因としないユーザ要求 -- は、目標指向の対話システムの継続的な改善における重要なプロセスである。 本稿では、特定のクラスタリングアルゴリズム、クラスタ代表抽出に対する新しいアプローチ、クラスタ命名を含む、未認識の発話を処理するエンドツーエンドパイプラインを提案する。 提案したクラスタリングアルゴリズムを評価し,その性能を既定のSOTAソリューションと比較し,未認識ユーザ要求の分析においてその利点を実証した。

The rapidly growing market demand for dialogue agents capable of goal-oriented behavior has caused many tech-industry leaders to invest considerable efforts into task-oriented dialog systems. The performance and success of these systems is highly dependent on the accuracy of their intent identification -- the process of deducing the goal or meaning of the user's request and mapping it to one of the known intents for further processing. Gaining insights into unrecognized utterances -- user requests the systems fails to attribute to a known intent -- is therefore a key process in continuous improvement of goal-oriented dialog systems. We present an end-to-end pipeline for processing unrecognized user utterances, including a specifically-tailore d clustering algorithm, a novel approach to cluster representative extraction, and cluster naming. We evaluated the proposed clustering algorithm and compared its performance to out-of-the-box SOTA solutions, demonstrating its benefits in the analysis of unrecognized user requests.
翻訳日:2022-04-12 20:56:21 公開日:2022-04-11
# (参考訳) 音声言語理解のための対話履歴のエンドツーエンド統合に向けて [全文訳有]

Towards End-to-End Integration of Dialog History for Improved Spoken Language Understanding ( http://arxiv.org/abs/2204.05169v1 )

ライセンス: CC BY 4.0
Vishal Sunder, Samuel Thomas, Hong-Kwang J. Kuo, Jatin Ganhotra, Brian Kingsbury, Eric Fosler-Lussier(参考訳) 対話システムにおける音声言語理解(SLU)のパフォーマンスにおいて,対話履歴は重要な役割を果たす。 e2e(end-to-end) sluでは、以前の作業ではテキスト形式のダイアログ履歴を使用しており、これはモデルがカスケードされた自動音声認識(asr)に依存している。 これにより、ASRエラーに対してコンパクトで堅牢なE2Eシステムの利点が取り除かれる。 本稿では,対話履歴を音声形式で直接使用することが可能な階層的会話モデルを提案する。 また、類似したテキストベースの会話モデルと音響および意味的埋め込みの明示的な結びつきを共同で訓練することにより、利用可能な金の会話文から意味知識を抽出する。 また,e2e方式でダイアログ履歴を追加することで,長いトレーニング時間に対処するためにdropframeと呼ぶ新しい手法を提案する。 harpervalleybankダイアログデータセットでは、e2e履歴統合は、ダイアログアクション認識のタスクにおいて、履歴独立ベースラインを7.7%絶対f1スコアで上回っています。 我々のモデルは最先端の履歴に基づくカスケードベースラインと競合するが、パラメータは48%少ない。 ASRモデルを微調整するための金の転写文字が存在しないため、我々のモデルは10%の絶対F1スコアでこのベースラインを上回ります。

Dialog history plays an important role in spoken language understanding (SLU) performance in a dialog system. For end-to-end (E2E) SLU, previous work has used dialog history in text form, which makes the model dependent on a cascaded automatic speech recognizer (ASR). This rescinds the benefits of an E2E system which is intended to be compact and robust to ASR errors. In this paper, we propose a hierarchical conversation model that is capable of directly using dialog history in speech form, making it fully E2E. We also distill semantic knowledge from the available gold conversation transcripts by jointly training a similar text-based conversation model with an explicit tying of acoustic and semantic embeddings. We also propose a novel technique that we call DropFrame to deal with the long training time incurred by adding dialog history in an E2E manner. On the HarperValleyBank dialog dataset, our E2E history integration outperforms a history independent baseline by 7.7% absolute F1 score on the task of dialog action recognition. Our model performs competitively with the state-of-the-art history based cascaded baseline, but uses 48% fewer parameters. In the absence of gold transcripts to fine-tune an ASR model, our model outperforms this baseline by a significant margin of 10% absolute F1 score.
翻訳日:2022-04-12 20:42:50 公開日:2022-04-11
# (参考訳) イベントトランスフォーマー

Event Transformer ( http://arxiv.org/abs/2204.05172v1 )

ライセンス: CC BY-SA 4.0
Zhihao Li, M. Salman Asif, Zhan Ma(参考訳) event cameraはバイオビジョンにインスパイアされたカメラで、ダイナミックレンジが高く、応答速度が高く、消費電力も低い。 一定の時間間隔で強度フレームを出力する従来のカメラとは異なり、イベントカメラは、非同期(時間)および疎(空間)に画素輝度変化(例えばイベント)を記録する。 既存の方法では、ダウンストリームタスクのために予め定義された時間的期間にイベントを集約することが多い。 この研究は、イベントシーケンスをそのネイティブベクトル化テンソルフォーマットで直接処理するEvent Transformerを提案する。 局所時間相関を利用するローカルトランスフォーマー(LXformer)と、局所空間類似性を埋め込むスパースコンフォーマー(SCformer)と、シリアル手段でグローバル情報をさらに集約するグローバルトランスフォーマー(GXformer)とをカスケードし、入力された生イベントから時空間相関を効果的に特徴付け、タスクに有効な時空間特徴を生成する。 LXformer と SCformer の双方において, 分類に広く用いられている5つのデータセット上の14の既存アルゴリズムと比較して, 実験が広く行われている。 定量的な結果は、イベントトランスフォーマーの最先端の分類精度と最小の計算資源要件を報告し、イベントベースの視覚タスクにとって事実上魅力的である。

The event camera is a bio-vision inspired camera with high dynamic range, high response speed, and low power consumption, recently attracting extensive attention for its use in vast vision tasks. Unlike the conventional cameras that output intensity frame at a fixed time interval, event camera records the pixel brightness change (a.k.a., event) asynchronously (in time) and sparsely (in space). Existing methods often aggregate events occurred in a predefined temporal duration for downstream tasks, which apparently overlook varying behaviors of fine-grained temporal events. This work proposes the Event Transformer to directly process the event sequence in its native vectorized tensor format. It cascades a Local Transformer (LXformer) for exploiting the local temporal correlation, a Sparse Conformer (SCformer) for embedding the local spatial similarity, and a Global Transformer (GXformer) for further aggregating the global information in a serial means to effectively characterize the time and space correlations from input raw events for the generation of effective spatiotemporal features used for tasks. %In both LXformer and SCformer, Experimental studies have been extensively conducted in comparison to another fourteen existing algorithms upon five different datasets widely used for classification. Quantitative results report the state-of-the-arts classification accuracy and the least computational resource requirements, of the Event Transformer, making it practically attractive for event-based vision tasks.
翻訳日:2022-04-12 20:32:01 公開日:2022-04-11
# (参考訳) 不確実性を持つ機械学習の現状 [全文訳有]

Machine Learning State-of-the-Art with Uncertainties ( http://arxiv.org/abs/2204.05173v1 )

ライセンス: CC BY 4.0
Peter Steinbach, Felicita Gernhardt, Mahnoor Tanveer, Steve Schmerler, Sebastian Starke(参考訳) データ、ハードウェア、ソフトウェアエコシステム、関連するスキルセットの可用性により、機械学習コミュニティは、新しいアーキテクチャとアプローチが毎年頻繁に現れるように、急速に発展している。 本稿では,精度測定に関わる信頼区間が,研究成果のコミュニケーションを著しく促進し,レビュープロセスに影響を及ぼすことを示すために,例示的な画像分類研究を行う。 さらに,この近似の目印と限界についても検討する。 我々は、ICLR22のスポットライト公開を反映したこのアプローチの関連性について論じる。 この出版物のオープンソース随伴者として再現可能なワークフローが利用可能である。 この議論に基づいて,機械学習論文の執筆・レビュープロセスを改善するための提案を行う。

With the availability of data, hardware, software ecosystem and relevant skill sets, the machine learning community is undergoing a rapid development with new architectures and approaches appearing at high frequency every year. In this article, we conduct an exemplary image classification study in order to demonstrate how confidence intervals around accuracy measurements can greatly enhance the communication of research results as well as impact the reviewing process. In addition, we explore the hallmarks and limitations of this approximation. We discuss the relevance of this approach reflecting on a spotlight publication of ICLR22. A reproducible workflow is made available as an open-source adjoint to this publication. Based on our discussion, we make suggestions for improving the authoring and reviewing process of machine learning articles.
翻訳日:2022-04-12 20:30:49 公開日:2022-04-11
# (参考訳) 音声データのない高度不均衡シナリオにおけるASRエラーロバスト音声仮想患者システムの構築 [全文訳有]

Building an ASR Error Robust Spoken Virtual Patient System in a Highly Class-Imbalanced Scenario Without Speech Data ( http://arxiv.org/abs/2204.05183v1 )

ライセンス: CC BY 4.0
Vishal Sunder, Prashant Serai, Eric Fosler-Lussier(参考訳) 仮想患者(VP)は、医学生に患者の歴史を学ばせるための強力なツールであり、学生との自然な会話をシミュレートするためには、多様な質問に答えることが不可欠である。 このような音声言語理解システム(SLU)の性能は、テストデータにおける自動音声認識(ASR)エラーの存在と、SLUトレーニングデータにおける高いクラス不均衡の両方に悪影響を及ぼす可能性がある。 これら2つの問題は先行研究で別々に取り組まれてきたが、我々はこれらの問題を単一のダイアログエージェントで効果的に扱う新しい2段階のトレーニング手法を開発した。 機能的SLUシステムなしではユーザから音声データを収集することは困難であるため,本手法は音声データに頼らず,テキストデータを"音声化"するためにASRエラー予測器を使用する。 提案手法は,様々な単語誤り率設定において,vpインテント分類タスクの強いベースラインに対して有意な改善を示す。

A Virtual Patient (VP) is a powerful tool for training medical students to take patient histories, where responding to a diverse set of spoken questions is essential to simulate natural conversations with a student. The performance of such a Spoken Language Understanding system (SLU) can be adversely affected by both the presence of Automatic Speech Recognition (ASR) errors in the test data and a high degree of class imbalance in the SLU training data. While these two issues have been addressed separately in prior work, we develop a novel two-step training methodology that tackles both these issues effectively in a single dialog agent. As it is difficult to collect spoken data from users without a functioning SLU system, our method does not rely on spoken data for training, rather we use an ASR error predictor to "speechify" the text data. Our method shows significant improvements over strong baselines on the VP intent classification task at various word error rate settings.
翻訳日:2022-04-12 20:22:27 公開日:2022-04-11
# (参考訳) テキスト生成のための一様複雑性 [全文訳有]

Uniform Complexity for Text Generation ( http://arxiv.org/abs/2204.05185v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial(参考訳) gpt-2のような強力な言語モデルは、教育的なセットアップで役立つナラティブ生成のようなタスクで有望な結果を示している。 しかし、これらのモデルは、使用するトリガーの言語特性と一致すべきである。 例えば、入力テキストプロンプトの読み取りレベルが低レベル学習者(例えばcefrのa2)に適切であれば、生成された継続もこの特定のレベルを仮定する必要がある。 そこで本研究では,既存の言語生成器をプロンプトに対して一様に複雑化する呼出として機能するテキスト生成のための一様複雑化タスクを提案する。 本研究は,文章の複雑さを評価するために160以上の言語特性を調査し,人間とGPT-2モデルの両方が物語生成環境におけるプロンプトの複雑さの保存に苦慮していることを発見した。

Powerful language models such as GPT-2 have shown promising results in tasks such as narrative generation which can be useful in an educational setup. These models, however, should be consistent with the linguistic properties of triggers used. For example, if the reading level of an input text prompt is appropriate for low-leveled learners (ex. A2 in the CEFR), then the generated continuation should also assume this particular level. Thus, we propose the task of uniform complexity for text generation which serves as a call to make existing language generators uniformly complex with respect to prompts used. Our study surveyed over 160 linguistic properties for evaluating text complexity and found out that both humans and GPT-2 models struggle in preserving the complexity of prompts in a narrative generation setting.
翻訳日:2022-04-12 20:12:25 公開日:2022-04-11
# (参考訳) エンド・ツー・エンド音声対インテントシステムにおける高精度音声対バートアライメントのためのトークンワイズコントラストプリトレーニング [全文訳有]

Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in End-to-End Speech-to-Intent Systems ( http://arxiv.org/abs/2204.05188v1 )

ライセンス: CC BY 4.0
Vishal Sunder, Eric Fosler-Lussier, Samuel Thomas, Hong-Kwang J. Kuo, Brian Kingsbury(参考訳) エンド・ツー・エンド(E2E)音声言語理解(SLU)の最近の進歩は主に、音声表現の効果的な事前学習によるものである。 そのような事前学習パラダイムの1つは、BERTのような最先端のテキストベースモデルから音声エンコーダニューラルネットワークへの意味知識の蒸留である。 この作業は、音声埋め込みとbert埋め込みをトークン毎のベースでアライメントする、はるかに効率的できめ細かい方法で同じことをする上での一歩です。 本稿では,トークンレベルのコンテキスト埋め込みを音声エンコーダから抽出し,BERTに基づくコンテキスト埋め込みと直接的に比較・整合できる,単純かつ斬新な手法を提案する。 このアライメントは、新しいトークンワイズコントラスト損失を用いて行われる。 音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。 提案手法は, スペックーグメントによる追加正規化により, 音声が雑音である場合にはさらに改善し, これまでの結果よりも8%の精度向上が期待できる。

Recent advances in End-to-End (E2E) Spoken Language Understanding (SLU) have been primarily due to effective pretraining of speech representations. One such pretraining paradigm is the distillation of semantic knowledge from state-of-the-art text-based models like BERT to speech encoder neural networks. This work is a step towards doing the same in a much more efficient and fine-grained manner where we align speech embeddings and BERT embeddings on a token-by-token basis. We introduce a simple yet novel technique that uses a cross-modal attention mechanism to extract token-level contextual embeddings from a speech encoder such that these can be directly compared and aligned with BERT based contextual embeddings. This alignment is performed using a novel tokenwise contrastive loss. Fine-tuning such a pretrained model to perform intent recognition using speech directly yields state-of-the-art performance on two widely used SLU datasets. Our model improves further when fine-tuned with additional regularization using SpecAugment especially when speech is noisy, giving an absolute improvement as high as 8% over previous results.
翻訳日:2022-04-12 19:59:32 公開日:2022-04-11
# (参考訳) CXR-FL:フェデレーションラーニングを用いた深層学習に基づく胸部X線画像解析 [全文訳有]

CXR-FL: Deep Learning-based Chest X-ray Image Analysis Using Federated Learning ( http://arxiv.org/abs/2204.05203v1 )

ライセンス: CC BY 4.0
Filip \'Slazyk, Przemys{\l}aw Jab{\l}ecki, Aneta Lisowska, Maciej Malawski, Szymon P{\l}otka(参考訳) フェデレートされた学習は、マルチセントデータから共有モデルを構築しながら、トレーニングデータをローカルにプライバシに格納することを可能にする。 本稿では,連合学習法を用いた胸部x線画像解析のための深層学習モデルの評価(cxr-fl)について述べる。 中心モデルの性能に及ぼす連合学習パラメータの影響について検討する。 また,完全画像と比較して肺の分節化に減少する興味のある領域で訓練された場合,分類モデルがより良くなることを示した。 しかし, 肺領域における分類モデルの集中訓練は, 推論時の病態解釈性の向上をもたらす可能性がある。 また、フェデレーション学習はモデルの一般化性を維持するのに役立つ。 トレーニング済みのウェイトとコードは(https://github.com/ sanoscience/cxr-fl)公開されている。

Federated learning enables building a shared model from multicentre data while storing the training data locally for privacy. In this paper, we present an evaluation (called CXR-FL) of deep learning-based models for chest X-ray image analysis using the federated learning method. We examine the impact of federated learning parameters on the performance of central models. Additionally, we show that classification models perform worse if trained on a region of interest reduced to segmentation of the lung compared to the full image. However, focusing training of the classification model on the lung area may result in improved pathology interpretability during inference. We also find that federated learning helps maintain model generalizability. The pre-trained weights and code are publicly available at (https://github.com/ SanoScience/CXR-FL).
翻訳日:2022-04-12 19:47:11 公開日:2022-04-11
# (参考訳) 病理における機械学習モデル評価の再考 [全文訳有]

Rethinking Machine Learning Model Evaluation in Pathology ( http://arxiv.org/abs/2204.05205v1 )

ライセンス: CC BY 4.0
Syed Ashar Javed, Dinkar Juyal, Zahil Shanis, Shreya Chakraborty, Harsha Pokkalla, Aaditya Prakash(参考訳) 機械学習は研究や臨床における病理画像に適用され、有望な結果が得られた。 しかし、標準的なMLモデルは臨床診断に必要な厳格な評価を欠いていることが多い。 自然画像のための機械学習技術は、かなり大きくてノイズが多く、高価なラベル付けが必要で、解釈が難しく、スプリアス相関の影響を受けやすい病理画像を扱うには不十分である。 以上の問題に対処する病理学におけるML評価の実践的ガイドラインを提案する。 本論文は,評価フレームワークの設定,ラベルの変数の効果的処理,ドメインシフトや堅牢性,境界変数に関する問題に対処するための一連のテストを含む。 提案フレームワークがml研究者とドメインエキスパートの間のギャップを埋めることで、病理学におけるmlテクニックの広範な採用と患者の成果向上につながることを願っている。

Machine Learning has been applied to pathology images in research and clinical practice with promising outcomes. However, standard ML models often lack the rigorous evaluation required for clinical decisions. Machine learning techniques for natural images are ill-equipped to deal with pathology images that are significantly large and noisy, require expensive labeling, are hard to interpret, and are susceptible to spurious correlations. We propose a set of practical guidelines for ML evaluation in pathology that address the above concerns. The paper includes measures for setting up the evaluation framework, effectively dealing with variability in labels, and a recommended suite of tests to address issues related to domain shift, robustness, and confounding variables. We hope that the proposed framework will bridge the gap between ML researchers and domain experts, leading to wider adoption of ML techniques in pathology and improving patient outcomes.
翻訳日:2022-04-12 19:19:24 公開日:2022-04-11
# 機械学習による$^\text{nat}$C(n,p)および$^\text{nat}$C(n,d)反応のエネルギー差分測定のための事象分類

Machine learning based event classification for the energy-differential measurement of the $^\text{nat}$C(n,p) and $^\text{nat}$C(n,d) reactions ( http://arxiv.org/abs/2204.04955v1 )

ライセンス: Link先を確認
P. \v{Z}ugec, M. Barbagallo, J. Andrzejewski, J. Perkowski, N. Colonna, D. Bosnar, A. Gawlik, M. Sabate-Gilarte, M. Bacak, F. Mingrone, E. Chiaveri(参考訳) 本稿では, CERNにおける飛行施設n_TOFの中性子時間から, 実験データである$^\text{nat}$C(n,p)と$^\text{nat}$C(n,d)の反応断面積を分類するために, 機械学習技術, 特にニューラルネットワークを用いることの可能性を検討する。 関連する$\Delta E$-$E$の2つのセグメントのシリコン望遠鏡のストリップは別々に処理され、独自のニューラルネットワークが提供される。 手順の重要な部分は、Geant4シミュレーションの生データに基づいて、トレーニングデータセットの慎重な準備である。 これらの生データをニューラルネットワークのトレーニングに使用する代わりに、関連する3パラメータ空間を離散ボクセルに分割し、各ボクセルを粒子/反応タイプに従って分類し、これらのボクセルをトレーニング手順に送信する。 構造的に最適化され、訓練されたニューラルネットワークの分類能力は、手動で選択したカットの分類能力よりも優れている。

The paper explores the feasibility of using machine learning techniques, in particular neural networks, for classification of the experimental data from the joint $^\text{nat}$C(n,p) and $^\text{nat}$C(n,d) reaction cross section measurement from the neutron time of flight facility n_TOF at CERN. Each relevant $\Delta E$-$E$ pair of strips from two segmented silicon telescopes is treated separately and afforded its own dedicated neural network. An important part of the procedure is a careful preparation of training datasets, based on the raw data from Geant4 simulations. Instead of using these raw data for the training of neural networks, we divide a relevant 3-parameter space into discrete voxels, classify each voxel according to a particle/reaction type and submit these voxels to a training procedure. The classification capabilities of the structurally optimized and trained neural networks are found to be superior to those of the manually selected cuts.
翻訳日:2022-04-12 19:05:16 公開日:2022-04-11
# データ集約型ニューラルネットワーク分類器を用いた音声からのCOVID-19検出の実用性について

On the pragmatism of using binary classifiers over data intensive neural network classifiers for detection of COVID-19 from voice ( http://arxiv.org/abs/2204.04802v1 )

ライセンス: Link先を確認
Ankit Shah, Hira Dhamyal, Yang Gao, Rita Singh, Bhiksha Raj(参考訳) 最近、複数の研究グループが新型コロナウイルスを音声から検出するための世界的な取り組みが行われている。 異なる研究者が音声信号から異なる種類の情報を使ってこれを実現する。 さまざまな種類の発声音と声と息の音が、自動音声ベースのCOVID-19検出アプリで様々な成功を収めている。 本稿では,音声からCOVID-19を検出するには,従来の非標準機能や複雑なニューラルネットワーク分類器を必要とせず,単なる標準機能と単純なバイナリ分類器で実現可能であることを示す。 実際、後者はより正確で解釈可能なだけでなく、小さなデバイス上でローカルに実行できるという点で計算効率も高いことが示されています。 臨床環境で収集・校正された人間によるデータセットからこれを実証する。 1000以上の話者からなるこのデータセットでは、単純なバイナリ分類器が94%の検出精度を達成できる。

Lately, there has been a global effort by multiple research groups to detect COVID-19 from voice. Different researchers use different kinds of information from the voice signal to achieve this. Various types of phonated sounds and the sound of cough and breath have all been used with varying degrees of success in automated voice-based COVID-19 detection apps. In this paper, we show that detecting COVID-19 from voice does not require custom-made non-standard features or complicated neural network classifiers rather it can be successfully done with just standard features and simple binary classifiers. In fact, we show that the latter is not only more accurate and interpretable and also more computationally efficient in that they can be run locally on small devices. We demonstrate this from a human-curated dataset collected and calibrated in clinical settings. On this dataset which comprises over 1000 speakers, a simple binary classifier is able to achieve 94% detection accuracy.
翻訳日:2022-04-12 19:01:30 公開日:2022-04-11
# Nested Quasi-Independent Setsによるユークリッド$k$-meansおよび$k$-medianの近似の改善

Improved Approximations for Euclidean $k$-means and $k$-median, via Nested Quasi-Independent Sets ( http://arxiv.org/abs/2204.04828v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Hossein Esfandiari, Vahab Mirrokni, Shyam Narayanan(参考訳) データ分析や機械学習の応用によって動機付けられた、一般的な高次元ユークリッドの$k$-medianと$k$-meansの問題を考える。 本稿では,ジャイナとヴァジラニの古典的アルゴリズムと,Ahmadian,Noouzi-Far d,Svensson,Wardの最近のアルゴリズムに着想を得た新しい原始双対アルゴリズムを提案する。 このアルゴリズムは、euclidean $k$medianと$k$-meansに対してそれぞれ2.406$と5.912$の近似比を達成し、ahmadian et al.の2.633近似比とgrandoni、ostrovsky、rabani、schulman、venkatの6.1291近似比を改善した。 我々の手法は、以前のユークリッドクラスタリングの研究よりもはるかに強いユークリッド計量の活用を含む。 さらに,我々は「ネスト準独立集合」をダビングするグラフ上の独立集合の変種を用いて,余剰中心を除去する新しい方法を提案する。 逆に、この手法はユークリッド空間や$\ell_p$計量空間における他の最適化問題にも興味を持つ。

Motivated by data analysis and machine learning applications, we consider the popular high-dimensional Euclidean $k$-median and $k$-means problems. We propose a new primal-dual algorithm, inspired by the classic algorithm of Jain and Vazirani and the recent algorithm of Ahmadian, Norouzi-Fard, Svensson, and Ward. Our algorithm achieves an approximation ratio of $2.406$ and $5.912$ for Euclidean $k$-median and $k$-means, respectively, improving upon the 2.633 approximation ratio of Ahmadian et al. and the 6.1291 approximation ratio of Grandoni, Ostrovsky, Rabani, Schulman, and Venkat. Our techniques involve a much stronger exploitation of the Euclidean metric than previous work on Euclidean clustering. In addition, we introduce a new method of removing excess centers using a variant of independent sets over graphs that we dub a "nested quasi-independent set". In turn, this technique may be of interest for other optimization problems in Euclidean and $\ell_p$ metric spaces.
翻訳日:2022-04-12 19:01:17 公開日:2022-04-11
# ブラックボックス最適化を用いたquboソルバの共振回避構造設計への応用

Application of QUBO solver using black-box optimization to structural design for resonance avoidance ( http://arxiv.org/abs/2204.04906v1 )

ライセンス: Link先を確認
Tadayoshi Matsumori, Masato Taki and Tadashi Kadowaki(参考訳) 二次連立最適化(qubo)は、共鳴を避けるために最適な構造を設計するために用いられる。 古典的または量子デバイスで動作するQUBOアルゴリズムは、いくつかの産業応用に成功している。 しかし、元の最適化問題からquboへの変換が難しいため、アプリケーションはまだ限られている。 近年,機械学習とベイズ処理を併用した組合せ最適化手法として,ブラックボックス最適化(BBO)手法が提案されている。 共振回避のためにbbo法を用いてプリント基板の設計を行った。 この設計問題は、自然周波数を最大化し、同時に実装点数を最小化する。 QUBO定式化のボトルネックである自然周波数は、BBO法における二次モデルに近似される。 因子化マシンを用いたbboは計算時間と最適解を求める成功確率の両方において良好な性能を示すことを示した。 我々の結果は、構造設計における他の応用に対するQUBOソルバの可能性を開くことができる。

Quadratic unconstrained binary optimization (QUBO) solvers can be applied to design an optimal structure to avoid resonance. QUBO algorithms that work on a classical or quantum device have succeeded in some industrial applications. However, their applications are still limited due to the difficulty of transforming from the original optimization problem to QUBO. Recently, black-box optimization (BBO) methods have been proposed to tackle this issue using a machine learning technique and a Bayesian treatment for combinatorial optimization. We employed the BBO methods to design a printed circuit board for resonance avoidance. This design problem is formulated to maximize natural frequency and simultaneously minimize the number of mounting points. The natural frequency, which is the bottleneck for the QUBO formulation, is approximated to a quadratic model in the BBO method. We demonstrated that BBO using a factorization machine shows good performance in both the calculation time and the success probability of finding the optimal solution. Our results can open up QUBO solvers' potential for other applications in structural designs.
翻訳日:2022-04-12 19:00:54 公開日:2022-04-11
# 不均一な逆行性障害を伴う近似Top-m$アーム同定

Approximate Top-$m$ Arm Identification with Heterogeneous Reward Variances ( http://arxiv.org/abs/2204.05245v1 )

ライセンス: Link先を確認
Ruida Zhou, Chao Tian(参考訳) 本研究は,腕の識別設定における報酬分散の不均一性の影響について検討する。 この設定では、$i$-th腕の報酬は$\sigma^2_i$-sub-Gaussian分布に従っており、エージェントはこの知識を組み込んで、予想されるアームプル数を最小化し、エラーの最大の手段である$m$腕を特定する必要がある。 We show that the worst-case sample complexity of this problem is $$\Theta\left( \sum_{i =1}^n \frac{\sigma_i^2}{\epsilon^2} \ln\frac{1}{\delta} + \sum_{i \in G^{m}} \frac{\sigma_i^2}{\epsilon^2} \ln(m) + \sum_{j \in G^{l}} \frac{\sigma_j^2}{\epsilon^2} \text{Ent}(\sigma^2_{G^{r}}) \right),$$ where $G^{m}, G^{l}, G^{r}$ are certain specific subsets of the overall arm set $\{1, 2, \ldots, n\}$, and $\text{Ent}(\cdot)$ is an entropy-like function which measures the heterogeneity of the variance proxies. 複雑性の上界は分割・対数型アルゴリズムを用いて得られるが、一致する下界は二重定式化の研究に依存する。

We study the effect of reward variance heterogeneity in the approximate top-$m$ arm identification setting. In this setting, the reward for the $i$-th arm follows a $\sigma^2_i$-sub-Gaussian distribution, and the agent needs to incorporate this knowledge to minimize the expected number of arm pulls to identify $m$ arms with the largest means within error $\epsilon$ out of the $n$ arms, with probability at least $1-\delta$. We show that the worst-case sample complexity of this problem is $$\Theta\left( \sum_{i =1}^n \frac{\sigma_i^2}{\epsilon^2} \ln\frac{1}{\delta} + \sum_{i \in G^{m}} \frac{\sigma_i^2}{\epsilon^2} \ln(m) + \sum_{j \in G^{l}} \frac{\sigma_j^2}{\epsilon^2} \text{Ent}(\sigma^2_{G^{r}}) \right),$$ where $G^{m}, G^{l}, G^{r}$ are certain specific subsets of the overall arm set $\{1, 2, \ldots, n\}$, and $\text{Ent}(\cdot)$ is an entropy-like function which measures the heterogeneity of the variance proxies. The upper bound of the complexity is obtained using a divide-and-conquer style algorithm, while the matching lower bound relies on the study of a dual formulation.
翻訳日:2022-04-12 19:00:08 公開日:2022-04-11
# 大規模原子論ダイナミクスのための局所同変表現の学習

Learning Local Equivariant Representations for Large-Scale Atomistic Dynamics ( http://arxiv.org/abs/2204.05249v1 )

ライセンス: Link先を確認
Albert Musaelian, Simon Batzner, Anders Johansson, Lixin Sun, Cameron J. Owen, Mordechai Kornbluth, Boris Kozinsky(参考訳) 分子や物質のエネルギーと原子力の同時的精度と計算学的に効率的なパラメトリゼーションは、自然科学における長年の目標である。 この目的を追求するために、ニューラルメッセージパッシングは、原子論グラフに沿ってメッセージを反復的に渡すことによって、原子の多体相関を記述することによってパラダイムシフトにつながった。 しかし、この情報の伝播は並列計算を困難にし、研究できる長さスケールを制限する。 厳密には、ローカルディスクリプタベースのメソッドは、大規模システムにスケールできるが、メッセージパッシングアプローチで観察される高い精度には現在マッチしない。 本研究は,並列計算の精度とスケーラビリティを同時に発揮する,厳密な局所的同変深層学習型原子間ポテンシャルであるallegroを紹介する。 allegroは、学習された同値表現の一連のテンソル積を用いて原子座標の多体関数を学習するが、メッセージパッシングに依存しない。 AllegroはQM9の最先端の手法と改訂されたMD-17データセットの改善を得た。 単一のテンソル製品層は、QM9ベンチマークで、既存のディープメッセージパッシングニューラルネットワークとトランスフォーマーよりも優れたパフォーマンスを示す。 さらに、allegroは分散外データに対する顕著な一般化を示す。 アレッグロに基づく分子動力学シミュレーションでは、アモルファスリン酸電解質の構造と運動特性が第一原理計算とよく一致している。 最後に,1億原子の動力学シミュレーションにより,allegroの並列スケーリングを実証する。

A simultaneously accurate and computationally efficient parametrization of the energy and atomic forces of molecules and materials is a long-standing goal in the natural sciences. In pursuit of this goal, neural message passing has lead to a paradigm shift by describing many-body correlations of atoms through iteratively passing messages along an atomistic graph. This propagation of information, however, makes parallel computation difficult and limits the length scales that can be studied. Strictly local descriptor-based methods, on the other hand, can scale to large systems but do not currently match the high accuracy observed with message passing approaches. This work introduces Allegro, a strictly local equivariant deep learning interatomic potential that simultaneously exhibits excellent accuracy and scalability of parallel computation. Allegro learns many-body functions of atomic coordinates using a series of tensor products of learned equivariant representations, but without relying on message passing. Allegro obtains improvements over state-of-the-art methods on the QM9 and revised MD-17 data sets. A single tensor product layer is shown to outperform existing deep message passing neural networks and transformers on the QM9 benchmark. Furthermore, Allegro displays remarkable generalization to out-of-distribution data. Molecular dynamics simulations based on Allegro recover structural and kinetic properties of an amorphous phosphate electrolyte in excellent agreement with first principles calculations. Finally, we demonstrate the parallel scaling of Allegro with a dynamics simulation of 100 million atoms.
翻訳日:2022-04-12 18:58:20 公開日:2022-04-11
# 離散時間線形系の最大エントロピー最適密度制御とschr\"odinger橋

Maximum entropy optimal density control of discrete-time linear systems and Schr\"odinger bridges ( http://arxiv.org/abs/2204.05263v1 )

ライセンス: Link先を確認
Kaito Ito, Kenji Kashima(参考訳) 決定論的離散時間線形系の最適密度制御のエントロピー正規化版を考える。 最適制御のためのエントロピー正則化あるいは最大エントロピー法(MaxEnt)は、特に自然探査戦略のような多くの利点のために強化学習において多くの注目を集めている。 これらのメリットにもかかわらず、高エントロピー制御政策はシステムに確率的不確実性をもたらし、安全クリティカルなシステムに対する最大最適制御の適用性を厳しく制限している。 この状況を改善するために、状態不確実性を直接制御するMaxEnt最適制御にガウス密度制約を所定時間で課す。 具体的には、MaxEnt最適密度制御の明示的な形式を導出する。 さらに,密度制約が不動点制約に置き換えられる場合についても考察する。 次に、関連する状態過程を、ブラウン橋の線形系への一般化であるピン付き過程として特徴づける。 最後に,最大最適密度制御は離散時間線形系に付随するいわゆるschr\"odinger橋を誘導することを明らかにした。

We consider an entropy-regularized version of optimal density control of deterministic discrete-time linear systems. Entropy regularization, or a maximum entropy (MaxEnt) method for optimal control has attracted much attention especially in reinforcement learning due to its many advantages such as a natural exploration strategy. Despite the merits, high-entropy control policies introduce probabilistic uncertainty into systems, which severely limits the applicability of MaxEnt optimal control to safety-critical systems. To remedy this situation, we impose a Gaussian density constraint at a specified time on the MaxEnt optimal control to directly control state uncertainty. Specifically, we derive the explicit form of the MaxEnt optimal density control. In addition, we also consider the case where a density constraint is replaced by a fixed point constraint. Then, we characterize the associated state process as a pinned process, which is a generalization of the Brownian bridge to linear systems. Finally, we reveal that the MaxEnt optimal density control induces the so-called Schr\"odinger bridge associated to a discrete-time linear system.
翻訳日:2022-04-12 18:57:58 公開日:2022-04-11
# 強化学習による遺伝的トグルスイッチの外部制御

External control of a genetic toggle switch via Reinforcement Learning ( http://arxiv.org/abs/2204.04972v1 )

ライセンス: Link先を確認
Sara Maria Brancato, Francesco De Lellis, Davide Salzano, Giovanni Russo, Mario di Bernardo(参考訳) 本稿では,外部制御手法を用いて合成トグルスイッチを安定化させる学習戦略の問題点について検討する。 合成生物学におけるアルゴリズムの実用性を損なうデータ効率問題を克服するために,トグルスイッチの簡易モデル上でのトレーニングを通じてポリシを学習し,その後,生体内実験からパラメータ化されたスイッチのより現実的なモデルを制御するために,シム・トゥ・リアル・パラダイムを採用する。 当社の in-silico 実験では,in-vivo 制御実装の可能性を示唆するアプローチの有効性を確認した。

We investigate the problem of using a learning-based strategy to stabilize a synthetic toggle switch via an external control approach. To overcome the data efficiency problem that would render the algorithm unfeasible for practical use in synthetic biology, we adopt a sim-to-real paradigm where the policy is learnt via training on a simplified model of the toggle switch and it is then subsequently exploited to control a more realistic model of the switch parameterized from in-vivo experiments. Our in-silico experiments confirm the viability of the approach suggesting its potential use for in-vivo control implementations.
翻訳日:2022-04-12 18:57:41 公開日:2022-04-11
# (参考訳) 腫瘍セグメンテーションにおける脳MRIデータ前処理の無視効果 [全文訳有]

Neglectable effect of brain MRI data prepreprocessing for tumor segmentation ( http://arxiv.org/abs/2204.05278v1 )

ライセンス: CC BY 4.0
Ekaterina Kondrateva and Polina Druzhinina and Alexandra Dalechina and Boris Shirokikh and Mikhail Belyaev and Anvar Kurmukov(参考訳) 磁気共鳴イメージング(MRI)データは、デバイスメーカ、走査プロトコル、オブジェクト間の可変性の違いにより異種である。 MR画像の不均一性を緩和する従来の方法は、解剖学的アライメント、ボクセル再サンプリング、信号強度の等化、画像のデノイング、関心領域の局在化などの前処理変換を適用することである。 前処理パイプラインは画像の外観を標準化するが、画像セグメンテーションや、ディープニューラルネットワーク(DNN)における下流タスクの品質への影響は、厳密に研究されていない。 本稿では,TCIA-GBMオープンソースデータセットを用いたマルチモーダルMRI脳がん画像セグメント化に関する総合的研究を報告する。 我々の結果は、最も一般的な標準化ステップが、ニューラルネットワークの性能に価値を与えないことを示しています。 画像の標準化に伴う信号ばらつきの低減により,画像強度正規化手法はモデルの精度に寄与しないことが示唆された。 最後に, 臨床的に関連のある指標を用いて測定した場合, データ前処理におけるscull-strippingの寄与はほとんど無視できることを示した。 正確な解析のための唯一の本質的な変換は、データセットをまたいでvoxel空間を統一することである。 対照的に、非剛性アトラス登録形態の解剖学的アライメントは不要であり、ほとんどの強度等化ステップはモデル生産性を改善しない。

Magnetic resonance imaging (MRI) data is heterogeneous due to the differences in device manufacturers, scanning protocols, and inter-subject variability. A conventional way to mitigate MR image heterogeneity is to apply preprocessing transformations, such as anatomy alignment, voxel resampling, signal intensity equalization, image denoising, and localization of regions of interest (ROI). Although preprocessing pipeline standardizes image appearance, its influence on the quality of image segmentation and other downstream tasks on deep neural networks (DNN) has never been rigorously studied. Here we report a comprehensive study of multimodal MRI brain cancer image segmentation on TCIA-GBM open-source dataset. Our results demonstrate that most popular standardization steps add no value to artificial neural network performance; moreover, preprocessing can hamper model performance. We suggest that image intensity normalization approaches do not contribute to model accuracy because of the reduction of signal variance with image standardization. Finally, we show the contribution of scull-stripping in data preprocessing is almost negligible if measured in terms of clinically relevant metrics. We show that the only essential transformation for accurate analysis is the unification of voxel spacing across the dataset. In contrast, anatomy alignment in form of non-rigid atlas registration is not necessary and most intensity equalization steps do not improve model productiveness.
翻訳日:2022-04-12 18:56:57 公開日:2022-04-11
# マルコフ圏、因果理論、そしてdo-calculus

Markov categories, causal theories, and the do-calculus ( http://arxiv.org/abs/2204.04821v1 )

ライセンス: Link先を確認
Yimu Yin, Jiji Zhang(参考訳) 有向非巡回グラフ(DAG)上で因果推論の構文を定式化する因果モデルに対するカテゴリー理論的扱いを,DAGと自由マルコフ圏を標準的に関連付けることにより行う。 この枠組みにより,因果独立/分離,因果条件,介入効果の分解といった抽象的かつ「純粋因果的」な観点から,因果推論の重要な概念を定義し,研究することができる。 これらの概念に関する結果は、(再帰的)構造方程式モデルや因果ベイズネットワークなど、一般的に採用されている因果モデルの詳細を抽象化したものです。 したがって、より広く適用可能であり、概念的により明確である。 この結果はユデア・パールの有名なdo-calculusとも密接に関連しており、すべての因果モデルに受け継がれている計算の核部分の構文版を与える。 特に、因果ベイズネットワークの文脈において、Pearl's do-calculusのより単純で専門的なバージョンを誘導する。

We give a category-theoretic treatment of causal models that formalizes the syntax for causal reasoning over a directed acyclic graph (DAG) by associating a free Markov category with the DAG in a canonical way. This framework enables us to define and study important concepts in causal reasoning from an abstract and "purely causal" point of view, such as causal independence/separat ion, causal conditionals, and decomposition of intervention effects. Our results regarding these concepts abstract away from the details of the commonly adopted causal models such as (recursive) structural equation models or causal Bayesian networks. They are therefore more widely applicable and in a way conceptually clearer. Our results are also intimately related to Judea Pearl's celebrated do-calculus, and yield a syntactic version of a core part of the calculus that is inherited in all causal models. In particular, it induces a simpler and specialized version of Pearl's do-calculus in the context of causal Bayesian networks, which we show is as strong as the full version.
翻訳日:2022-04-12 18:13:04 公開日:2022-04-11
# IoTのための依存型侵入検知システム:ディープトランスファー学習に基づくアプローチ

Dependable Intrusion Detection System for IoT: A Deep Transfer Learning-based Approach ( http://arxiv.org/abs/2204.04837v1 )

ライセンス: Link先を確認
Sk. Tanzir Mehedi, Adnan Anwar, Ziaur Rahman, Kawsar Ahmed and Rafiqul Islam(参考訳) IoTアプリケーションに対するセキュリティ上の懸念は、さまざまなエンタープライズシステムで広く使用されていることから、警戒されている。 これらのアプリケーションに対する潜在的な脅威は絶えず出現し、変化しており、そのため、そのような脅威に対して高度で信頼できる防御ソリューションが必要である。 IoTネットワークの急速な開発と進化する脅威タイプにより、従来の機械学習ベースのIDSは、現在の持続可能なIoT環境のセキュリティ要件に対処するために更新されなければならない。 近年,ディープ・ラーニングとディープ・トランスファー・ラーニングが様々な分野で大きな成功を収め,信頼性の高いネットワーク侵入検出の潜在的なソリューションとして浮上している。 しかし、新しい課題や新たな課題は、異種IoTセットアップにおける従来のIDSの正確性、効率性、スケーラビリティ、信頼性に関連する。 本論文は,いくつかの既存手法より優れた深層移動学習型信頼型IDSモデルを提案する。 このユニークな貢献には、少量のラベル付きデータの正規および攻撃シナリオを特定するのに最も適した効果的な属性選択、信頼可能なディープトランスファー学習ベースのresnetモデルの設計、現実世界のデータを考慮した評価が含まれる。 この目的のために、総合的な実験性能評価が行われた。 大規模解析と性能評価により,提案モデルが堅牢で,より効率的であり,性能が向上し,信頼性が保証された。

Security concerns for IoT applications have been alarming because of their widespread use in different enterprise systems. The potential threats to these applications are constantly emerging and changing, and therefore, sophisticated and dependable defense solutions are necessary against such threats. With the rapid development of IoT networks and evolving threat types, the traditional machine learning-based IDS must update to cope with the security requirements of the current sustainable IoT environment. In recent years, deep learning, and deep transfer learning have progressed and experienced great success in different fields and have emerged as a potential solution for dependable network intrusion detection. However, new and emerging challenges have arisen related to the accuracy, efficiency, scalability, and dependability of the traditional IDS in a heterogeneous IoT setup. This manuscript proposes a deep transfer learning-based dependable IDS model that outperforms several existing approaches. The unique contributions include effective attribute selection, which is best suited to identify normal and attack scenarios for a small amount of labeled data, designing a dependable deep transfer learning-based ResNet model, and evaluating considering real-world data. To this end, a comprehensive experimental performance evaluation has been conducted. Extensive analysis and performance evaluation show that the proposed model is robust, more efficient, and has demonstrated better performance, ensuring dependability.
翻訳日:2022-04-12 18:09:30 公開日:2022-04-11
# 微分プライベートミニマックス問題の安定性と一般化

Stability and Generalization of Differentially Private Minimax Problems ( http://arxiv.org/abs/2204.04858v1 )

ライセンス: Link先を確認
Yilin Kang, Yong Liu, Jian Li, Weiping Wang(参考訳) 機械学習の分野では、強化学習、生成的敵ネットワークなど、多くの問題をミニマックス問題として定式化することができる。 minimaxの問題はここ数十年、研究者の注目を集めている。 しかし、一般的なminimaxパラダイムのプライバシーを研究する作業は、比較的少ない。 本稿では、差分プライバシーとミニマックス最適化のパラダイムを組み合わせることで、一般的なミニマックス設定のプライバシーに焦点を当てる。 さらに, アルゴリズム安定性理論を用いて, 強凸強凸条件下での微分プライベートミニマックスアルゴリズムの高確率一般化性能を理論的に解析した。 私たちの知る限りでは、差分プライバシーを考慮して、general minimaxパラダイムの一般化性能を分析するのは初めてです。

In the field of machine learning, many problems can be formulated as the minimax problem, including reinforcement learning, generative adversarial networks, to just name a few. So the minimax problem has attracted a huge amount of attentions from researchers in recent decades. However, there is relatively little work on studying the privacy of the general minimax paradigm. In this paper, we focus on the privacy of the general minimax setting, combining differential privacy together with minimax optimization paradigm. Besides, via algorithmic stability theory, we theoretically analyze the high probability generalization performance of the differentially private minimax algorithm under the strongly-convex-stro ngly-concave condition. To the best of our knowledge, this is the first time to analyze the generalization performance of general minimax paradigm, taking differential privacy into account.
翻訳日:2022-04-12 18:09:09 公開日:2022-04-11
# 拡張フリーグラフコントラスト学習

Augmentation-Free Graph Contrastive Learning ( http://arxiv.org/abs/2204.04874v1 )

ライセンス: Link先を確認
Haonan Wang, Jieyu Zhang, Qi Zhu, Wei Huang(参考訳) グラフコントラスト学習(GCL)は、グラフ構造化データに対する最も代表的で一般的な自己教師付き学習手法である。 その顕著な成功にもかかわらず、既存のGCLメソッドは、異なる拡張ビュー間で不変な表現を学ぶための拡張スキームに大きく依存している。 本稿では,GCLにおけるそのような慣習を再考し,スペクトル理論のレンズを用いたグラフデータに対する拡張手法の効果を検討する。 グラフ拡張は低周波成分を保存し,中・高周波成分を摂動させることにより,好気性グラフ上のgclアルゴリズムの成功に寄与するが,好気性データの高周波嗜好性により,好気性グラフへの適用を妨げていることがわかった。 そこで我々は,(1)グラフニューラルネットワークが集約した特徴を活用して,拡張の代わりに自己超越信号を構築することにより,(2)グラフのホモフィジカル度に敏感でない,新しい理論的原理と拡張不要なGCL法を提案する。 理論的には、AF-GCLの性能保証と、AF-GCLの有効性を理解するための分析を提示する。 ヘテロフィリーの度合いの異なる14のベンチマークデータセットに対する大規模な実験により、AF-GCLはホモフィリックグラフ上での競争力や優れた性能を示し、計算オーバーヘッドが著しく少ないヘテロフィリックグラフ上での既存のGCL手法よりも優れていた。

Graph contrastive learning (GCL) is the most representative and prevalent self-supervised learning approach for graph-structured data. Despite its remarkable success, existing GCL methods highly rely on an augmentation scheme to learn the representations invariant across different augmentation views. In this work, we revisit such a convention in GCL through examining the effect of augmentation techniques on graph data via the lens of spectral theory. We found that graph augmentations preserve the low-frequency components and perturb the middle- and high-frequency components of the graph, which contributes to the success of GCL algorithms on homophilic graphs but hinders its application on heterophilic graphs, due to the high-frequency preference of heterophilic data. Motivated by this, we propose a novel, theoretically-princi pled, and augmentation-free GCL method, named AF-GCL, that (1) leverages the features aggregated by Graph Neural Network to construct the self-supervision signal instead of augmentations and therefore (2) is less sensitive to the graph homophily degree. Theoretically, We present the performance guarantee for AF-GCL as well as an analysis for understanding the efficacy of AF-GCL. Extensive experiments on 14 benchmark datasets with varying degrees of heterophily show that AF-GCL presents competitive or better performance on homophilic graphs and outperforms all existing state-of-the-art GCL methods on heterophilic graphs with significantly less computational overhead.
翻訳日:2022-04-12 18:08:57 公開日:2022-04-11
# 正方形のカーネル和による証明書と高速レートによる非凸最適化

Non-Convex Optimization with Certificates and Fast Rates Through Kernel Sums of Squares ( http://arxiv.org/abs/2204.04970v1 )

ライセンス: Link先を確認
Blake Woodworth (SIERRA), Francis Bach (SIERRA), Alessandro Rudi (SIERRA)(参考訳) 我々は、パラメータ空間の次元と最適化する関数の滑らかさに依存する近似の最適速度を、潜在的に非凸最適化問題を考える。 本稿では, 最適計算保証に近いアルゴリズムを提案するとともに, 後続の最適性証明も提供する。 一般の定式化は無限次元二乗和とフーリエ解析に基づいており、多変量周期関数の最小化に基づいてインスタンス化される。

We consider potentially non-convex optimization problems, for which optimal rates of approximation depend on the dimension of the parameter space and the smoothness of the function to be optimized. In this paper, we propose an algorithm that achieves close to optimal a priori computational guarantees, while also providing a posteriori certificates of optimality. Our general formulation builds on infinite-dimensional sums-of-squares and Fourier analysis, and is instantiated on the minimization of multivariate periodic functions.
翻訳日:2022-04-12 18:08:32 公開日:2022-04-11
# 時間適応型リカレントニューラルネットワーク

Time-Adaptive Recurrent Neural Networks ( http://arxiv.org/abs/2204.05192v1 )

ライセンス: Link先を確認
Mantas Luko\v{s}evi\v{c}ius and Arnas Uselis(参考訳) データは不規則にサンプリングされることが多い。 リカレントニューラルネットワーク(recurrent neural network, rnn)は、従来は事実を無視し、時間差を追加入力として与えたり、データを再サンプリングしたりしていた。 これらの手法には欠点がある。 そこで本研究では,rnnがデータ時間に合致する時間に再サンプリングされるエレガントな代替手法を提案する。 ソリューションの基盤として,Echo State Network (ESN) と Gated Recurrent Unit (GRU) を使用しています。 このようなRNNは連続時間力学系の離散化と見なすことができ、これは我々のアプローチに確かな理論的根拠を与える。 フィードフォワードニューラルネットワークでは、ニューラル常微分方程式として同様の観測がなされている。 我々の時間適応型esn (taesn) と gru (tagru) モデルは直接モデル時間設定が可能であり、通常のモデルに比べて追加のトレーニング、パラメータチューニング、計算を必要としないため、元の効率を維持している。 本稿では,実世界の非一様データ集合の時間的不均一性に対処するために提案するデータ再サンプリング,古典的rnn法,代替rnnモデルと比較し,実世界の時間的不均一性を効果的に補正できることを実証する。

Data are often sampled irregularly in time. Dealing with this using Recurrent Neural Networks (RNNs) traditionally involved ignoring the fact, feeding the time differences as additional inputs, or resampling the data. All these methods have their shortcomings. We propose an elegant alternative approach where instead the RNN is in effect resampled in time to match the time of the data. We use Echo State Network (ESN) and Gated Recurrent Unit (GRU) as the basis for our solution. Such RNNs can be seen as discretizations of continuous-time dynamical systems, which gives a solid theoretical ground for our approach. Similar recent observations have been made in feed-forward neural networks as neural ordinary differential equations. Our Time-Adaptive ESN (TAESN) and GRU (TAGRU) models allow for a direct model time setting and require no additional training, parameter tuning, or computation compared to the regular counterparts, thus retaining their original efficiency. We confirm empirically that our models can effectively compensate for the time-non-uniformity of the data and demonstrate that they compare favorably to data resampling, classical RNN methods, and alternative RNN models proposed to deal with time irregularities on several real-world nonuniform-time datasets.
翻訳日:2022-04-12 18:06:27 公開日:2022-04-11
# 深部脳刺激手術における電気インピーダンストモグラフィによる3次元イメージングの術後ツールと有用性の検討

A Post-Processing Tool and Feasibility Study for Three-Dimensional Imaging with Electrical Impedance Tomography During Deep Brain Stimulation Surgery ( http://arxiv.org/abs/2204.05201v1 )

ライセンス: Link先を確認
Sebastien Martin(参考訳) 電気インピーダンストモグラフィ(EIT)はバイオメディカルイメージングの有望な技術である。 EITの強みは、放射線安全技術によって身体の内部構造を再構築する能力である。 EITは患者の健康に安全であると考えられており、現在積極的に研究されている。 本稿では,深部脳刺激(DBS)手術におけるEITの応用について検討する。 DBSは、鉛または電極アレイが脳の特定の標的領域に移植される外科的手順を含む。 電気刺激は標的領域内の神経回路を調節し、神経症状を減少させる。 dbs手術の主な困難は、治療を開始する前にターゲット領域にリードを正確に配置することである。 DBS手術時の脳組織の変化は、術前のMRI(MRI)やCT(CT)画像と比較すると、ターゲットサイズに匹敵する。 この問題に対処するために,DBS手術中にプローブを取り巻く画像の再構成を行うオープンドメインEITに基づくソリューションを提案する。 データ取得と画像再構成を行い、人工知能を適用して得られた画像を強化する。 その結果,提案手法は迅速であり,高品質な画像を生成することができ,生前の研究への第一歩となることがわかった。

Electrical impedance tomography (EIT) is a promising technique for biomedical imaging. The strength of EIT is its ability to reconstruct images of the body's internal structures through radiation-safe techniques. EIT is regarded as safe for patients' health, and it is currently being actively researched. This paper investigates the application of EIT during deep brain stimulation (DBS) surgery as a means to identify targets during operations. DBS involves a surgical procedure in which a lead or electrode array is implanted in a specific target area in the brain. Electrical stimulations are then used to modulate neural circuits within the target area to reduce disabling neurological symptoms. The main difficulty in performing DBS surgery is to accurately position the lead in the target area before commencing the treatment. Brain tissue shifts during DBS surgery can be as large as the target size when compared with the pre-operative magnetic resonance imaging (MRI) or computed tomography (CT) images. To address this problem, a solution based on open-domain EIT to reconstruct images surrounding the probe during DBS surgery is proposed. Data acquisition and image reconstruction were performed, and artificial intelligence was applied to enhance the resulting images. The results showed that the proposed method is rapid, produces valuable high-quality images, and constitutes a first step towards in-vivo study.
翻訳日:2022-04-12 18:06:03 公開日:2022-04-11
# Narcissus: 限定情報付きクリーンラベルバックドア攻撃

Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information ( http://arxiv.org/abs/2204.05255v1 )

ライセンス: Link先を確認
Yi Zeng, Minzhou Pan, Hoang Anh Just, Lingjuan Lyu, Meikang Qiu and Ruoxi Jia(参考訳) バックドア攻撃は悪意のあるデータをトレーニングセットに挿入し、推論時間中にバックドアトリガーでパッチされた入力をマルウェア特定ラベルとして誤分類する。 人体検査を回避するためのバックドア攻撃には、注入されたデータを正しくラベル付けすることが不可欠である。 このような特性を持つ攻撃はしばしば「クリーンラベル攻撃」と呼ばれる。 既存のクリーンラベルバックドア攻撃では、トレーニングセット全体の知識が有効である必要があります。 トレーニングデータは複数のソース(例えば、異なるユーザの顔画像)から収集されることが多いため、そのような知識を得ることは困難または不可能である。 バックドア攻撃が本当の脅威であるかどうかはまだ疑問だ。 本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを設計することで,この問題に対する肯定的な回答を提供する。 ターゲットクラスのデータの0.5%以下、トレーニングセットの0.05%に毒を塗布することで、サンプルがバックドアトリガーでパッチされている場合、任意のクラスからテスト例をターゲットクラスに分類するようにモデルを訓練することができる。 私たちの攻撃は、物理的にトリガーが現れても、データセットやモデル間でうまく動作します。 我々は防御の空間を探索し、驚くべきことに、我々の攻撃が最新の最先端の防御をバニラ形式で回避できるか、あるいは単純なねじれの後に下流の防御に適応できることを発見した。 そこで本研究では,本攻撃で生成したトリガは,対象クラスの本来の意味的特徴と同じくらい永続的な特徴を含むため,そのようなトリガを除去しようとすると,まずモデル精度が損なわれることを発見した。

Backdoor attacks insert malicious data into a training set so that, during inference time, it misclassifies inputs that have been patched with a backdoor trigger as the malware specified label. For backdoor attacks to bypass human inspection, it is essential that the injected data appear to be correctly labeled. The attacks with such property are often referred to as "clean-label attacks." Existing clean-label backdoor attacks require knowledge of the entire training set to be effective. Obtaining such knowledge is difficult or impossible because training data are often gathered from multiple sources (e.g., face images from different users). It remains a question whether backdoor attacks still present a real threat. This paper provides an affirmative answer to this question by designing an algorithm to mount clean-label backdoor attacks based only on the knowledge of representative examples from the target class. With poisoning equal to or less than 0.5% of the target-class data and 0.05% of the training set, we can train a model to classify test examples from arbitrary classes into the target class when the examples are patched with a backdoor trigger. Our attack works well across datasets and models, even when the trigger presents in the physical world. We explore the space of defenses and find that, surprisingly, our attack can evade the latest state-of-the-art defenses in their vanilla form, or after a simple twist, we can adapt to the downstream defenses. We study the cause of the intriguing effectiveness and find that because the trigger synthesized by our attack contains features as persistent as the original semantic features of the target class, any attempt to remove such triggers would inevitably hurt the model accuracy first.
翻訳日:2022-04-12 18:05:43 公開日:2022-04-11
# (参考訳) ケアへのアクセス:Linked Open Dataを用いた医療の地理的分布の分析 [全文訳有]

Access to care: analysis of the geographical distribution of healthcare using Linked Open Data ( http://arxiv.org/abs/2204.05206v1 )

ライセンス: CC BY 4.0
Selene Baez Santamaria, Emmanouil Manousogiannis, Guusje Boomgaard, Linh P. Tran, Zoltan Szlavik and Robert-Jan Sips(参考訳) 背景:医療へのアクセスは,医療施設の地理的分布などの資源配分に強く依存している。 しかしながら、このデータは一般には公開されていない国の公式文書に制限されている。 一部の医療施設のデータはWeb上のセマンティックリソースとしてアクセス可能であるが、そのモデリングには一貫性がなく、完全にオープンで特別なリポジトリに統合されていない。 本研究は, 世界中の医療施設の総合的なセマンティック・セマンティック・セマンティック・データセットの作成に焦点をあてる。 結果: この目的のために, 医療施設の情報が存在する可能性のある各種オープンソースデータベースを収集, 調整, リンクする。 この研究により、各データソースを、完全性、正確性、および他のソースとの相互接続など、様々な次元に沿って評価することができる。 結論:我々の貢献は、医療施設へのアクセスと配布に関するより優れた概要を提供する、医療・医療分野(患者、医療専門家、企業、規制当局、研究者)の利害関係者に直接貢献します。

Background: Access to medical care is strongly dependent on resource allocation, such as the geographical distribution of medical facilities. Nevertheless, this data is usually restricted to country official documentation, not available to the public. While some medical facilities' data is accessible as semantic resources on the Web, it is not consistent in its modeling and has yet to be integrated into a complete, open, and specialized repository. This work focuses on generating a comprehensive semantic dataset of medical facilities worldwide containing extensive information about such facilities' geo-location. Results: For this purpose, we collect, align, and link various open-source databases where medical facilities' information may be present. This work allows us to evaluate each data source along various dimensions, such as completeness, correctness, and interlinking with other sources, all critical aspects of current knowledge representation technologies. Conclusions: Our contributions directly benefit stakeholders in the biomedical and health domain (patients, healthcare professionals, companies, regulatory authorities, and researchers), who will now have a better overview of the access to and distribution of medical facilities.
翻訳日:2022-04-12 18:03:08 公開日:2022-04-11
# 事前学習された視覚特徴抽出器と制約付きctc復号を用いたキュード音声認識のためのマルチストリームニューラルアーキテクチャ

Multistream neural architectures for cued-speech recognition using a pre-trained visual feature extractor and constrained CTC decoding ( http://arxiv.org/abs/2204.04965v1 )

ライセンス: Link先を確認
Sanjana Sankar (GIPSA-CRISSP), Denis Beautemps (GIPSA-CRISSP), Thomas Hueber (GIPSA-CRISSP)(参考訳) 本論文は,聴覚障害のある人が音声を理解できるための視覚コミュニケーションツールであるCued Speech(CS)の自動認識のための,シンプルで効果的なアプローチを提案する。 提案手法は,視覚特徴抽出に用いられる事前学習された手とリップストラッカと,コネクショニスト時間的分類損失を訓練し発音レキシコンと組み合わせた多ストリームリカレントニューラルネットワークに基づく音韻デコーダに基づいている。 提案システムはフランス語CSデータセットCSF18の更新版に基づいて評価され,手動で音素の書き起こしをチェック・修正した。 音素レベルでの復号精度は70.88%であり、提案システムは従来のCNN-HMM復号器よりも優れ、より複雑なベースラインと競合する。

This paper proposes a simple and effective approach for automatic recognition of Cued Speech (CS), a visual communication tool that helps people with hearing impairment to understand spoken language with the help of hand gestures that can uniquely identify the uttered phonemes in complement to lipreading. The proposed approach is based on a pre-trained hand and lips tracker used for visual feature extraction and a phonetic decoder based on a multistream recurrent neural network trained with connectionist temporal classification loss and combined with a pronunciation lexicon. The proposed system is evaluated on an updated version of the French CS dataset CSF18 for which the phonetic transcription has been manually checked and corrected. With a decoding accuracy at the phonetic level of 70.88%, the proposed system outperforms our previous CNN-HMM decoder and competes with more complex baselines.
翻訳日:2022-04-12 17:44:38 公開日:2022-04-11
# 画像品質評価の混乱 : 拡張現実体験の改善に向けて

Confusing Image Quality Assessment: Towards Better Augmented Reality Experience ( http://arxiv.org/abs/2204.04900v1 )

ライセンス: Link先を確認
Huiyu Duan, Xiongkuo Min, Yucheng Zhu, Guangtao Zhai, Xiaokang Yang, Patrick Le Callet(参考訳) マルチメディア技術の発展により、拡張現実(ar)は有望な次世代モバイルプラットフォームとなった。 arの主な価値は、デジタルコンテンツと現実世界の環境の融合を促進することであるが、この融合がこれら2つのコンポーネントのqoe(quality of experience)にどのように影響するかの研究が不足している。 2つの層が互いに影響を受けるarのqoeを改善するためには、まずその知覚的品質を評価することが重要である。 本稿では,AR技術を仮想シーンと実シーンの重ね合わせとみなし,視覚的混乱を基本的な理論として紹介する。 より一般的な問題は、重畳された画像の知覚的品質、すなわち、画像品質の混乱を評価することである。 ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。 そして、人間がどのように混乱したイメージを知覚するかをよりよく理解するために、主観的品質知覚研究と客観的モデル評価実験を行う。 また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。 さらに,CFIQA研究に基づいてARIQA研究を拡張した。 我々は、AR参照画像20、背景(BG)参照画像20、およびARおよびBG参照から生成された560の歪み画像と、対応する主観的品質評価を含む、実際のARアプリケーションシナリオをより良くシミュレートするARIQAデータベースを構築した。 また、対応するIQAアルゴリズムを設計する際に視覚的混乱を考慮すべきかどうかを検討するために、3種類の全参照IQAメトリクスを設計する。 AR画像の知覚品質を評価するためにARIQAメトリクスが提案されている。

With the development of multimedia technology, Augmented Reality (AR) has become a promising next-generation mobile platform. The primary value of AR is to promote the fusion of digital contents and real-world environments, however, studies on how this fusion will influence the Quality of Experience (QoE) of these two components are lacking. To achieve better QoE of AR, whose two layers are influenced by each other, it is important to evaluate its perceptual quality first. In this paper, we consider AR technology as the superimposition of virtual scenes and real scenes, and introduce visual confusion as its basic theory. A more general problem is first proposed, which is evaluating the perceptual quality of superimposed images, i.e., confusing image quality assessment. A ConFusing Image Quality Assessment (CFIQA) database is established, which includes 600 reference images and 300 distorted images generated by mixing reference images in pairs. Then a subjective quality perception study and an objective model evaluation experiment are conducted towards attaining a better understanding of how humans perceive the confusing images. An objective metric termed CFIQA is also proposed to better evaluate the confusing image quality. Moreover, an extended ARIQA study is further conducted based on the CFIQA study. We establish an ARIQA database to better simulate the real AR application scenarios, which contains 20 AR reference images, 20 background (BG) reference images, and 560 distorted images generated from AR and BG references, as well as the correspondingly collected subjective quality ratings. We also design three types of full-reference (FR) IQA metrics to study whether we should consider the visual confusion when designing corresponding IQA algorithms. An ARIQA metric is finally proposed for better evaluating the perceptual quality of AR images.
翻訳日:2022-04-12 17:39:52 公開日:2022-04-11
# 一貫したセグメンテーションによる階層の評価

Assessing hierarchies by their consistent segmentations ( http://arxiv.org/abs/2204.04969v1 )

ライセンス: Link先を確認
Zeev Gutman, Ritvik Vij (IIT Delhi), Laurent Najman (LIGM), Michael Lindenbaum(参考訳) 最近のセグメンテーションアプローチは、ネストしたイメージパーティションの階層を作ることから始まり、通常は1つの水平カットを選択することでセグメンテーションを指定する。 最初のコントリビューションは、階層領域を使用してセグメンテーションを指定するために、いくつかの異なる方法を記述することです。 次に、階層ノード/領域の限られた数 k でセグメントを指定した、階層化による最良セグメンテーションを考える。 階層化によって引き起こされるセグメンテーションの数は、階層サイズとともに指数関数的に増加する。 共通の品質指標であるjaccard index(iouとしても知られる)にフォーカスしています。 Jaccardインデックスの最適化は非常に簡単ではない。 しかし、我々は効率的な最適化を提案する。 * この作業は、最初の著者がmath deptを使っていた時に行われた。 イスラエルのテクニオン出身。

Recent segmentation approaches start by creating a hierarchy of nested image partitions, and then specify a segmentation from it, usually, by choosing one horizontal cut. Our first contribution is to describe several different ways, some of them new, for specifying segmentations using the hierarchy regions. Then we consider the best hierarchy-induced segmentation, in which the segments are specified by a limited number, k, of hierarchy nodes/regions. The number of hierarchy-induced segmentations grows exponentially with the hierarchy size, implying that exhaustive search is unfeasible. We focus on a common quality measure, the Jaccard index (known also as IoU). Optimizing the Jaccard index is highly nontrivial. Yet, we propose an efficient optimization * This work was done when the first author was with the Math dept. Technion, Israel.
翻訳日:2022-04-12 17:39:23 公開日:2022-04-11
# フォトメトリックステレオにおける光配置の最適実験設計法

An Optimal Experimental Design Approach for Light Configurations in Photometric Stereo ( http://arxiv.org/abs/2204.05218v1 )

ライセンス: Link先を確認
Hamza Gardi, Sebastian F. Walter, Christoph S. Garbe(参考訳) 本稿では,異なる照明位置下で得られた画像の集合から物体の表面の正常性を求める手法を提案する。 提案手法は,光度ステレオ(PS)と最適実験設計(OED)とパラメータ推定(PE)を組み合わせた原理に基づいている。 フォトメトリックステレオのアプローチとそれに基づく多くのモデルによって明らかでないのは、光源の位置の決め方である。 これまでのところ、これは光源の最適・非データ駆動的な位置決めにつながるヒューリスティックなアプローチを用いて行われる。 しかし、光源の最適な位置が測光ステレオで計算されたらどうだろう? この目的のために、PSの正規ベクトルの品質に対する光源の位置決めの効果を評価する。 さらに、この方向の新しいアプローチが導出され、定式化される。 ランベルト面の表面正規性の計算には、キャリブレーションされた測光ステレオに基づくアプローチがあり、光源の最適位置を推定するためには、パラメータ推定と最適実験設計を前提としている。 このアプローチは合成データと実データを使ってテストされる。 結果から, 従来法に比べて, 従来法よりも表面標準値がより詳細に推定されていることが分かる。

This paper presents a technique for finding the surface normal of an object from a set of images obtained under different lighting positions. The method presented is based on the principles of Photometric Stereo (PS) combined with Optimum Experimental Design (OED) and Parameter Estimation (PE). Unclear by the approach of photometric stereo, and many models based thereon, is how to position the light sources. So far, this is done by using heuristic approaches this leads to suboptimal and non-data driven positioning of the light sources. But what if the optimal positions of the light sources are calculated for photometric stereo? To this end, in this contribution, the effect of positioning the light sources on the quality of the normal vector for PS is evaluated. Furthermore, a new approach in this direction is derived and formulated. For the calculation of the surface normal of a Lambertian surface, the approach based on calibrated photometric stereo; for the estimation the optimal position of the light sources the approach is premised on parameter estimation and optimum experimental design. The approach is tested using synthetic and real-data. Based on results it can be seen that the surface normal estimated with the new method is more detailed than with conventional methods.
翻訳日:2022-04-12 17:39:09 公開日:2022-04-11
# (参考訳) FIJO:フランスの保険ソフトスキル検出データセット [全文訳有]

"FIJO": a French Insurance Soft Skill Detection Dataset ( http://arxiv.org/abs/2204.05208v1 )

ライセンス: CC BY-SA 4.0
David Beauchemin and Julien Laumonier and Yvan Le Ster and Marouane Yassine(参考訳) 雇用需要の進化を理解することは、労働者、企業、公共組織にとって、雇用市場の急速な変容に従うことがより重要になっている。 幸いなことに、最近の自然言語処理(NLP)アプローチは、求人広告から情報を自動的に抽出し、より正確にスキルを認識する方法の開発を可能にする。 しかし、これらの効率的なアプローチは、主に知的財産のためにアクセスが困難である研究領域からの大量の注釈付きデータを必要とする。 本稿では、多くのソフトスキルアノテーションを含む保険業務の提供を含む新しい公開データセットFIJOを提案する。 このデータセットの可能性を理解するために、いくつかの特徴といくつかの制限を詳述する。 そして、名前付きエンティティ認識手法を用いて、スキル検出アルゴリズムの結果を示し、このデータセットにトランスフォーマーベースのモデルが優れたトークンワイズ性能を持つことを示す。 最後に,NLPアプローチの適用時に発生する問題を強調するため,最良モデルによる誤りを分析した。

Understanding the evolution of job requirements is becoming more important for workers, companies and public organizations to follow the fast transformation of the employment market. Fortunately, recent natural language processing (NLP) approaches allow for the development of methods to automatically extract information from job ads and recognize skills more precisely. However, these efficient approaches need a large amount of annotated data from the studied domain which is difficult to access, mainly due to intellectual property. This article proposes a new public dataset, FIJO, containing insurance job offers, including many soft skill annotations. To understand the potential of this dataset, we detail some characteristics and some limitations. Then, we present the results of skill detection algorithms using a named entity recognition approach and show that transformers-based models have good token-wise performances on this dataset. Lastly, we analyze some errors made by our best model to emphasize the difficulties that may arise when applying NLP approaches.
翻訳日:2022-04-12 17:37:19 公開日:2022-04-11
# 自動運転モバイルクリニック: いつでも手頃な価格の医療アクセスを許可する

Autonomous Mobile Clinics: Empowering Affordable Anywhere Anytime Healthcare Access ( http://arxiv.org/abs/2204.04841v1 )

ライセンス: Link先を確認
Shaoshan Liu, Yuzhang Huang, Leiyu Shi(参考訳) 医療費が上昇している現在、世界の医療危機に直面しているが、高齢化に伴い、政府の財政収入は減少している。 より効率的で効果的な医療システムを構築するためには、医療アクセス、ヘルスケアエクイティ、医療効率の3つの技術的課題がすぐに現れます。 自律移動診療所は、患者の指先順で医療サービスを患者に提供することにより、医療アクセス問題を解決する。 それにもかかわらず、ユニバーサルな自律型モバイルクリニックネットワークを実現するためには、3段階の技術的なロードマップを達成する必要がある。 第2段階では,乳幼児期から成人期まで,クリーンな医療データを用いて,プライマリケアのためのaiドクターを開発する。 AIの医師は、非効率な問題を解くことができる。 第3段階では、自律型モバイルクリニックネットワークがターゲットとする臨床ユースケースを真に解決できることが証明された後、すべての医療分野のプラットフォームを開放し、この新しいシステムを通じて普遍的な医療を可能にする。

We are facing a global healthcare crisis today as the healthcare cost is ever climbing, but with the aging population, government fiscal revenue is ever dropping. To create a more efficient and effective healthcare system, three technical challenges immediately present themselves: healthcare access, healthcare equity, and healthcare efficiency. An autonomous mobile clinic solves the healthcare access problem by bringing healthcare services to the patient by the order of the patient's fingertips. Nevertheless, to enable a universal autonomous mobile clinic network, a three-stage technical roadmap needs to be achieved: In stage one, we focus on solving the inequity challenge in the existing healthcare system by combining autonomous mobility and telemedicine. In stage two, we develop an AI doctor for primary care, which we foster from infancy to adulthood with clean healthcare data. With the AI doctor, we can solve the inefficiency problem. In stage three, after we have proven that the autonomous mobile clinic network can truly solve the target clinical use cases, we shall open up the platform for all medical verticals, thus enabling universal healthcare through this whole new system.
翻訳日:2022-04-12 17:25:35 公開日:2022-04-11
# 科学資源とナレッジサービス要素の正確な肖像

Accurate Portraits of Scientific Resources and Knowledge Service Components ( http://arxiv.org/abs/2204.04883v1 )

ライセンス: Link先を確認
Yue Wang and Zhe Xue and Ang Li(参考訳) クラウドコンピューティング時代の到来とともに、情報の作成、取得、管理のコストは徐々に減少していった。 インターネット上のデータ量も爆発的な成長を示しており、ますます科学や技術資源がネットワークにアップロードされるようになっている。 インターネット上のニュースやソーシャルメディアのデータとは違って、科学・技術資源の本体は学術的なスタイルのリソースや、論文、特許、著者、研究機関などの機関で構成されている。 資源間の豊富な関係ネットワークがあり、そこから大量の最先端の科学技術情報を採掘することができる。 既存の科学技術資源の管理基準や分類基準は多数存在するが、科学技術資源のすべての実体や関連を完全にカバーすることは困難であり、科学技術資源に含まれる重要な情報を正確に抽出することはできない。 ネットワーク内の構造化され、構造化されていないレポートやテキストから科学技術資源を完全かつ正確に表現する方法や、科学技術資源の潜在的価値をどのように活用するかは、緊急の課題である。 解決策は、知識グラフ関連技術と組み合わせて、科学および技術資源の正確なポートレートを構築することである。

With the advent of the cloud computing era, the cost of creating, capturing and managing information has gradually decreased. The amount of data in the Internet is also showing explosive growth, and more and more scientific and technological resources are uploaded to the network. Different from news and social media data ubiquitous in the Internet, the main body of scientific and technological resources is composed of academic-style resources or entities such as papers, patents, authors, and research institutions. There is a rich relationship network between resources, from which a large amount of cutting-edge scientific and technological information can be mined. There are a large number of management and classification standards for existing scientific and technological resources, but these standards are difficult to completely cover all entities and associations of scientific and technological resources, and cannot accurately extract important information contained in scientific and technological resources. How to construct a complete and accurate representation of scientific and technological resources from structured and unstructured reports and texts in the network, and how to tap the potential value of scientific and technological resources is an urgent problem. The solution is to construct accurate portraits of scientific and technological resources in combination with knowledge graph related technologies.
翻訳日:2022-04-12 17:25:16 公開日:2022-04-11
# クロスメディア科学と技術情報検索に関する研究

Research on Cross-media Science and Technology Information Data Retrieval ( http://arxiv.org/abs/2204.04887v1 )

ライセンス: Link先を確認
Yang Jiang and Zhe Xue and Ang Li(参考訳) ビッグデータの時代から、インターネットはあらゆる種類の情報で溢れてきた。 インターネットを通じて情報を閲覧することは、人々の日常生活の不可欠な部分となっている。 インターネット上のニュースデータやソーシャルデータとは異なり、クロスメディア技術情報データには異なる特徴がある。 このデータは、研究者や研究者が現在のホットスポットを追跡し、技術開発の今後の方向性を探る上で重要な基盤となっている。 科学・技術情報データの量が増えていくにつれて、一助データ検索のみをサポートし、時代遅れのデータキーワードマッチングモデルを使用する従来の科学技術情報検索システムは、科学・技術学者の日々の検索ニーズを満たすことができない。 したがって、上記の研究の背景から、国内・国際技術の発展傾向に沿った深い意味的特徴に基づくマルチメディア科学・技術情報検索システムを研究することは、極めて実践的な意義がある。

Since the era of big data, the Internet has been flooded with all kinds of information. Browsing information through the Internet has become an integral part of people's daily life. Unlike the news data and social data in the Internet, the cross-media technology information data has different characteristics. This data has become an important basis for researchers and scholars to track the current hot spots and explore the future direction of technology development. As the volume of science and technology information data becomes richer, the traditional science and technology information retrieval system, which only supports unimodal data retrieval and uses outdated data keyword matching model, can no longer meet the daily retrieval needs of science and technology scholars. Therefore, in view of the above research background, it is of profound practical significance to study the cross-media science and technology information data retrieval system based on deep semantic features, which is in line with the development trend of domestic and international technologies.
翻訳日:2022-04-12 17:24:58 公開日:2022-04-11
# 固有特性に基づくmm波システムのための新しいチャネル識別アーキテクチャ

A Novel Channel Identification Architecture for mmWave Systems Based on Eigen Features ( http://arxiv.org/abs/2204.05052v1 )

ライセンス: Link先を確認
Yibin Zhang, Jinlong Sun, Guan Gui, Haris Gacanin and Fumiyuki Adachi(参考訳) ミリ波(ミリ波)通信技術は、高速、広帯域、超低遅延の長所が多く、急速に発展してきた。 しかし、mmWave通信システムは急速に衰退し、頻繁に遮断される。 したがって、mmwave の理想的な通信環境は line of sight (los) channel である。 本稿では,mmwaveシステムの効率とキャパシティを向上し,iot (internet of everything) サービスネットワークをより良く構築するために,ライン・オブ・アイズ (los) と非ロス (nlos) 環境におけるチャネル識別技術に注目した。 本稿では,ユーザ機器 (ues) の計算能力の制限を考えると,チャネル状態情報 (csi) の固有特性,固有行列および固有ベクトル (emev) に基づく新しいチャネル識別アーキテクチャを提案する。 さらに,第3世代パートナーシッププロジェクト(3GPP)によって定義されたmmWaveによるクラスタ遅延線(CDL)チャネルの同定について検討する。 実験の結果、EMEVベースのスキームは完全なCSIを仮定して99.88%の精度で識別できることがわかった。 強靭性試験では、最大雑音は SNR= 16 dB で、閾値は acc \geq 95% である。 さらに、EMEV機能に基づく新しいアーキテクチャは、全体的なオーバーヘッドを約90%削減します。

Millimeter wave (mmWave) communication technique has been developed rapidly because of many advantages of high speed, large bandwidth, and ultra-low delay. However, mmWave communications systems suffer from fast fading and frequent blocking. Hence, the ideal communication environment for mmWave is line of sight (LOS) channel. To improve the efficiency and capacity of mmWave system, and to better build the Internet of Everything (IoE) service network, this paper focuses on the channel identification technique in line-of- sight (LOS) and non-LOS (NLOS) environments. Considering the limited computing ability of user equipments (UEs), this paper proposes a novel channel identification architecture based on eigen features, i.e. eigenmatrix and eigenvector (EMEV) of channel state information (CSI). Furthermore, this paper explores clustered delay line (CDL) channel identification with mmWave, which is defined by the 3rd generation partnership project (3GPP). Ther experimental results show that the EMEV based scheme can achieve identification accuracy of 99.88% assuming perfect CSI. In the robustness test, the maximum noise can be tolerated is SNR= 16 dB, with the threshold acc \geq 95%. What is more, the novel architecture based on EMEV feature will reduce the comprehensive overhead by about 90%.
翻訳日:2022-04-12 17:24:44 公開日:2022-04-11
# (参考訳) monCE Tracking Metrics: オブジェクト追跡のための総合的定量的パフォーマンス評価手法 [全文訳有]

MONCE Tracking Metrics: a comprehensive quantitative performance evaluation methodology for object tracking ( http://arxiv.org/abs/2204.05280v1 )

ライセンス: CC BY 4.0
Kenneth Rapko, Wanlin Xie, and Andrew Walsh(参考訳) 追跡モデルのパフォーマンスの評価は、特に防衛アプリケーションで重要な非連続的マルチオブジェクトトラッカーにとって、複雑なタスクである。 優れたトラッキングベンチマークはいろいろあるが、この研究は、長期、非連続、マルチオブジェクト、および検出モデル支援トラッカーのパフォーマンスを定量化する。 本研究では,目標追跡モデルの性能ベンチマークと,予測平均重なり,短期的・長期的再同定,追跡リコール,追跡精度,長寿命,位置推定,欠如予測という形での追跡モデル開発のための診断的洞察を提供する,monce(multi-object non-contiguous entities)イメージトラッキング指標のスイートを提案する。

Evaluating tracking model performance is a complicated task, particularly for non-contiguous, multi-object trackers that are crucial in defense applications. While there are various excellent tracking benchmarks available, this work expands them to quantify the performance of long-term, non-contiguous, multi-object and detection model assisted trackers. We propose a suite of MONCE (Multi-Object Non-Contiguous Entities) image tracking metrics that provide both objective tracking model performance benchmarks as well as diagnostic insight for driving tracking model development in the form of Expected Average Overlap, Short/Long Term Re-Identification, Tracking Recall, Tracking Precision, Longevity, Localization and Absence Prediction.
翻訳日:2022-04-12 17:22:21 公開日:2022-04-11
# 適応的交互方向法に基づく非負の潜在因子モデル

An Adaptive Alternating-directio n-method-based Nonnegative Latent Factor Model ( http://arxiv.org/abs/2204.04843v1 )

ライセンス: Link先を確認
Yurong Zhong and Xin Luo(参考訳) 交互方向法に基づく非負潜在因子モデルにより、高次元および不完全行列への効率的な表現学習を行うことができる。 しかし、学習プロセスに複数のハイパーパラメータを導入し、優れたパフォーマンスを実現するために慎重に選択する必要がある。 そのハイパーパラメータ適応はスケーラビリティをさらに向上するために望まれる。 本稿では,超パラメータ適応を粒子群最適化の原理に従って実現した適応交互方向法に基づく非負遅延係数(A2NLF)モデルを提案する。 工業的応用によって生成される非負のHDI行列に関する実証的研究は、A2NLFが計算および記憶効率の点でいくつかの最先端モデルより優れており、HDI行列の欠落データに対する高い競合推定精度を維持していることを示している。

An alternating-directio n-method-based nonnegative latent factor model can perform efficient representation learning to a high-dimensional and incomplete (HDI) matrix. However, it introduces multiple hyper-parameters into the learning process, which should be chosen with care to enable its superior performance. Its hyper-parameter adaptation is desired for further enhancing its scalability. Targeting at this issue, this paper proposes an Adaptive Alternating-directio n-method-based Nonnegative Latent Factor (A2NLF) model, whose hyper-parameter adaptation is implemented following the principle of particle swarm optimization. Empirical studies on nonnegative HDI matrices generated by industrial applications indicate that A2NLF outperforms several state-of-the-art models in terms of computational and storage efficiency, as well as maintains highly competitive estimation accuracy for an HDI matrix's missing data.
翻訳日:2022-04-12 17:14:49 公開日:2022-04-11
# 不明遅延を伴うオンラインFrank-Wolfe

Online Frank-Wolfe with Unknown Delays ( http://arxiv.org/abs/2204.04964v1 )

ライセンス: Link先を確認
Yuanyu Wan and Wei-Wei Tu and Lijun Zhang(参考訳) オンラインのFrank-Wolfe(OFW)メソッドは、プロジェクションフリーな性質のため、オンライン凸最適化において非常に人気がある。 以前の研究では、凸損失に対して、OWは一般集合に対する後悔$O(T^{3/4})と強い凸集合に対する後悔$O(T^{2/3})を達成し、損失が強い凸であれば、これらの境界はそれぞれ$O(T^{2/3})$と$O(\sqrt{T})$に改善できることを示した。 しかし、OFWによってクエリされた各勾配は直ちに明らかになり、実際には保持されない可能性がある。 本稿では、勾配が任意かつ未知の遅延で到達するより実用的な設定を検討し、この設定を一般化する遅延 OFWを提案する。 主なアイデアは、グラデーションを受け取った後にOFWに似たアップデートを実行し、各ラウンドの最新の決定を実行することである。 まず、凸損失に対して、遅延 OFW は一般集合に対して$O(T^{3/4}+dT^{1/4}) および強い凸集合に対して$O(T^{2/3}+dT^{1/3}) の後悔を達成し、$d$ は最大遅延であることを示す。 さらに、強い凸損失に対して、遅延 OFW は一般集合に対する後悔$O(T^{2/3}+d\log T) と強凸集合に対する後悔$O(\sqrt{T}+d\log T) が得られることを証明している。 非遅延設定の後悔限界と比較すると,提案手法は比較的大きな遅延に対して頑健であることが示唆された。

The online Frank-Wolfe (OFW) method has gained much popularity for online convex optimization due to its projection-free property. Previous studies showed that for convex losses, OFW attains $O(T^{3/4})$ regret over general sets and $O(T^{2/3})$ regret over strongly convex sets, and if losses are strongly convex, these bounds can be improved to $O(T^{2/3})$ and $O(\sqrt{T})$, respectively. However, they assumed that each gradient queried by OFW is revealed immediately, which may not hold in practice. In this paper, we consider a more practical setting where gradients arrive with arbitrary and unknown delays, and propose delayed OFW which generalizes OFW to this setting. The main idea is to perform an update similar to OFW after receiving any gradient, and play the latest decision for each round. We first show that for convex losses, delayed OFW achieves $O(T^{3/4}+dT^{1/4})$ regret over general sets and $O(T^{2/3}+dT^{1/3})$ regret over strongly convex sets, where $d$ is the maximum delay. Furthermore, we prove that for strongly convex losses, delayed OFW attains $O(T^{2/3}+d\log T)$ regret over general sets and $O(\sqrt{T}+d\log T)$ regret over strongly convex sets. Compared with regret bounds in the non-delayed setting, our results imply that the proposed method is robust to a relatively large amount of delay.
翻訳日:2022-04-12 17:14:33 公開日:2022-04-11
# FederatedScope: メッセージパッシングによる包括的で柔軟なフェデレート学習プラットフォーム

FederatedScope: A Comprehensive and Flexible Federated Learning Platform via Message Passing ( http://arxiv.org/abs/2204.05011v1 )

ライセンス: Link先を確認
Yuexiang Xie, Zhen Wang, Daoyuan Chen, Dawei Gao, Liuyi Yao, Weirui Kuang, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 既存のFLプラットフォームが開発に基本的な機能を提供しているが、これらのFLプラットフォームは、学術と産業の両方において急速に成長するFLタスクの需要を十分に満たすことはできない。 このギャップを埋めるために,本稿では,メッセージ指向フレームワークを基盤としたフェデレートスコープという,新しい包括的統合学習プラットフォームを提案する。 様々なflタスクをより便利で柔軟なサポートのために、federatedscopeはflコースを参加者間で数ラウンドのメッセージパスにフレーム化し、開発者は新しいタイプの交換メッセージと対応する様々なflアプリケーションのハンドラをカスタマイズできる。 プロシージャフレームワークと比較して、提案するメッセージ指向フレームワークは、異種メッセージ交換と参加者のリッチな振る舞いを表現するのにより柔軟であり、シミュレーションとデプロイメントの両方の統一的なビューを提供する。 さらに、flにおけるフロンティア研究の要件を満たすために、パーソナライズ、自動チューニング、プライバシ保護など、フェデレーションスコープのいくつかの機能コンポーネントも含んでいます。 フェデレートスコープの正確性と効率性を検証するため,簡易かつ総合的なflベンチマークを用いた一連の実験を行った。 We has released FederatedScope for users on https://github.com/a libaba/FederatedScop e to promote research and industrial deployment of federated learning in various real-world applications。

Although remarkable progress has been made by the existing federated learning (FL) platforms to provide fundamental functionalities for development, these FL platforms cannot well satisfy burgeoning demands from rapidly growing FL tasks in both academia and industry. To fill this gap, in this paper, we propose a novel and comprehensive federated learning platform, named FederatedScope, which is based on a message-oriented framework. Towards more handy and flexible support for various FL tasks, FederatedScope frames an FL course into several rounds of message passing among participants, and allows developers to customize new types of exchanged messages and the corresponding handlers for various FL applications. Compared to the procedural framework, the proposed message-oriented framework is more flexible to express heterogeneous message exchange and the rich behaviors of participants, and provides a unified view for both simulation and deployment. Besides, we also include several functional components in FederatedScope, such as personalization, auto-tuning, and privacy protection, to satisfy the requirements of frontier studies in FL. We conduct a series of experiments on the provided easy-to-use and comprehensive FL benchmarks to validate the correctness and efficiency of FederatedScope. We have released FederatedScope for users on https://github.com/a libaba/FederatedScop e to promote research and industrial deployment of federated learning in a variety of real-world applications.
翻訳日:2022-04-12 17:13:56 公開日:2022-04-11
# 安全クリティカル運転シナリオにおけるモデルフリー強化学習によるフォールバック戦略の自動学習

Automatically Learning Fallback Strategies with Model-Free Reinforcement Learning in Safety-Critical Driving Scenarios ( http://arxiv.org/abs/2204.05196v1 )

ライセンス: Link先を確認
Ugo Lecerf, Christelle Yemdji-Tchassi, S\'ebastien Aubert, Pietro Michiardi(参考訳) 交通中の車両の運転など安全が重要である確率的環境での行動を学ぶ場合、環境に予期せぬ変化があった場合、人間のドライバーがフォールバック戦略をバックアップとして計画することが自然である。 予期せぬ結果の予測と計画を知ることで、目に見えないシナリオに対して堅牢であることの能力を高め、破滅的な失敗を防ぐのに役立ちます。 自動運転車の制御(AVs)は、安全のためにフォールバック戦略をいつ、どのように使うかを知ることに特に関心がある。 AVの環境に関する不完全な情報のため、元々のトレーニングデータ分布から導出されていない可能性のある戦略を準備しておくことが重要である。 本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作を捉えるための原則的アプローチを提案する。 我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。 我々は、この報酬項をエージェントの軌跡間の距離メートル法に基づいており、初期探査エージェントとは異なる状態空間の異なる領域に政策を集中させる。 論文全体を通して、この特定のトレーニングパラダイムを、フォールバック戦略の学習として言及する。 この手法を自動運転のシナリオに適用し、トレーニング中に見逃され、制御アルゴリズムの実行時に使用できないような有用なポリシーを学習できることを実証する。

When learning to behave in a stochastic environment where safety is critical, such as driving a vehicle in traffic, it is natural for human drivers to plan fallback strategies as a backup to use if ever there is an unexpected change in the environment. Knowing to expect the unexpected, and planning for such outcomes, increases our capability for being robust to unseen scenarios and may help prevent catastrophic failures. Control of Autonomous Vehicles (AVs) has a particular interest in knowing when and how to use fallback strategies in the interest of safety. Due to imperfect information available to an AV about its environment, it is important to have alternate strategies at the ready which might not have been deduced from the original training data distribution. In this paper we present a principled approach for a model-free Reinforcement Learning (RL) agent to capture multiple modes of behaviour in an environment. We introduce an extra pseudo-reward term to the reward model, to encourage exploration to areas of state-space different from areas privileged by the optimal policy. We base this reward term on a distance metric between the trajectories of agents, in order to force policies to focus on different areas of state-space than the initial exploring agent. Throughout the paper, we refer to this particular training paradigm as learning fallback strategies. We apply this method to an autonomous driving scenario, and show that we are able to learn useful policies that would have otherwise been missed out on during training, and unavailable to use when executing the control algorithm.
翻訳日:2022-04-12 17:12:56 公開日:2022-04-11
# ベイズ点ルールセット学習

Bayes Point Rule Set Learning ( http://arxiv.org/abs/2204.05251v1 )

ライセンス: Link先を確認
Fabio Aiolli, Luca Bergamin, Tommaso Carraro, Mirko Polato(参考訳) 解釈性は、機械学習アルゴリズムの設計においてますます重要な役割を担っている。 しかし、解釈可能な方法はブラックボックスに比べて精度が低い傾向にある。 中でも、DNF (Disjunctive Normal Forms) は規則の集合を表現する最も解釈可能な方法である。 本稿では、DNF型ルールセットを学習するためのFIND-Sアルゴリズムの効果的なボトムアップ拡張を提案する。 アルゴリズムは、正の例の分割をひそかに見つける。 生成された DNF は共役規則の集合であり、それぞれ正および全ての負の例の一部と一致する最も特異な規則に対応する。 また, dnf決定規則を集約することでベイズ最適分類器を近似する, この手法の2つの原理拡張を提案する。 最後に,一般化能力を維持しつつ,学習規則の説明可能性を大幅に向上させる手法を提案する。 いくつかのベンチマークデータセットにおける最先端の記号的および統計的手法との比較により,提案手法は説明可能性と精度のバランスが良好であることを示す。

Interpretability is having an increasingly important role in the design of machine learning algorithms. However, interpretable methods tend to be less accurate than their black-box counterparts. Among others, DNFs (Disjunctive Normal Forms) are arguably the most interpretable way to express a set of rules. In this paper, we propose an effective bottom-up extension of the popular FIND-S algorithm to learn DNF-type rulesets. The algorithm greedily finds a partition of the positive examples. The produced DNF is a set of conjunctive rules, each corresponding to the most specific rule consistent with a part of positive and all negative examples. We also propose two principled extensions of this method, approximating the Bayes Optimal Classifier by aggregating DNF decision rules. Finally, we provide a methodology to significantly improve the explainability of the learned rules while retaining their generalization capabilities. An extensive comparison with state-of-the-art symbolic and statistical methods on several benchmark data sets shows that our proposal provides an excellent balance between explainability and accuracy.
翻訳日:2022-04-12 17:12:32 公開日:2022-04-11
# グラスマン多様体上の部分空間マージを用いた多視点グラフ構造学習

Multi-view graph structure learning using subspace merging on Grassmann manifold ( http://arxiv.org/abs/2204.05258v1 )

ライセンス: Link先を確認
Razieh Ghiasi, Hossein Amirkhani and Alireza Bosaghzadeh(参考訳) グラフ構造データを表現するために、多くの学習アルゴリズムが最近開発されている。 例えば、グラフニューラルネットワーク(GNN)は、ノード分類、グラフ分類、リンク予測といった様々なタスクで大きな成功を収めています。 しかし,これらの手法は入力グラフ構造の品質に大きく依存している。 この問題を緩和するために使われるアプローチの一つは、手動で設計されたグラフに頼るのではなく、グラフ構造を学ぶことである。 本稿では,多視点グラフ構造学習法であるMV-GSL(Multi-View Graph Structure Learning)を用いたグラフ構造学習手法を提案する。 提案手法の有効性をcoraとciteseerの2つのベンチマークデータセットで評価するために,広範な実験を行った。 提案手法は,単一および他の組み合わせグラフ構造学習手法と比較して有望な性能を持つことを示す。

Many successful learning algorithms have been recently developed to represent graph-structured data. For example, Graph Neural Networks (GNNs) have achieved considerable successes in various tasks such as node classification, graph classification, and link prediction. However, these methods are highly dependent on the quality of the input graph structure. One used approach to alleviate this problem is to learn the graph structure instead of relying on a manually designed graph. In this paper, we introduce a new graph structure learning approach using multi-view learning, named MV-GSL (Multi-View Graph Structure Learning), in which we aggregate different graph structure learning methods using subspace merging on Grassmann manifold to improve the quality of the learned graph structures. Extensive experiments are performed to evaluate the effectiveness of the proposed method on two benchmark datasets, Cora and Citeseer. Our experiments show that the proposed method has promising performance compared to single and other combined graph structure learning methods.
翻訳日:2022-04-12 17:12:17 公開日:2022-04-11
# クレジットカード不正検出における将来情報の重要性

The Importance of Future Information in Credit Card Fraud Detection ( http://arxiv.org/abs/2204.05265v1 )

ライセンス: Link先を確認
Van Bach Nguyen, Kanishka Ghosh Dastidar, Michael Granitzer, Wissam Siblini(参考訳) FDS(Fraud Detection System)は主に2つのタスクを実行する。 (i)支払い処理中のリアルタイム検出 (ii)カードの後方検出を遡及的に阻止し、さらなる不正行為を避けること。 人間による検証がしばしば必要であり、支払い処理時間に制限があるため、第2のタスクは最大のトランザクション量を管理する。 文献では、不正検出問題やアルゴリズムの性能について広く研究されているが、その特徴や過去のカード所有者の取引に基づいて、取引が不正であるかどうかを予測することを目的としている。 しかし、後続検出では、検証に数日を要することが多いため、決定を下す前に新しい支払いが利用可能になる。 これは,「未来」情報を用いた後方不正検出という新たなパラダイムを提案する動機である。 まず、検出を改善するために追加のコンテキストとして使用できる、後続のトランザクションのオンタイム可用性の証拠を提供することから始めます。 次に、これらのトランザクションを利用するために双方向LSTMを設計する。 3000万以上のトランザクションを持つ実世界のデータセットでは、過去のコンテキストのみを使用する不正検出のための最先端の分類器である通常のLSTMよりも高いパフォーマンスを達成する。 我々はまた、この提案がより多くの詐欺、より侵害されたカードをキャッチし、最も初期の詐欺に基づいていることを示す新しい指標も導入した。 この新たなパラダイムにおける今後の作業は、不正なカードの検出に大きな影響を与えるだろうと考えています。

Fraud detection systems (FDS) mainly perform two tasks: (i) real-time detection while the payment is being processed and (ii) posterior detection to block the card retrospectively and avoid further frauds. Since human verification is often necessary and the payment processing time is limited, the second task manages the largest volume of transactions. In the literature, fraud detection challenges and algorithms performance are widely studied but the very formulation of the problem is never disrupted: it aims at predicting if a transaction is fraudulent based on its characteristics and the past transactions of the cardholder. Yet, in posterior detection, verification often takes days, so new payments on the card become available before a decision is taken. This is our motivation to propose a new paradigm: posterior fraud detection with "future" information. We start by providing evidence of the on-time availability of subsequent transactions, usable as extra context to improve detection. We then design a Bidirectional LSTM to make use of these transactions. On a real-world dataset with over 30 million transactions, it achieves higher performance than a regular LSTM, which is the state-of-the-art classifier for fraud detection that only uses the past context. We also introduce new metrics to show that the proposal catches more frauds, more compromised cards, and based on their earliest frauds. We believe that future works on this new paradigm will have a significant impact on the detection of compromised cards.
翻訳日:2022-04-12 17:12:01 公開日:2022-04-11
# (参考訳) 物理的に絡み合った表現

Physically Disentangled Representations ( http://arxiv.org/abs/2204.05281v1 )

ライセンス: CC BY 4.0
Tzofi Klinghoffer, Kushagra Tiwary, Arkadiusz Balata, Vivek Sharma, Ramesh Raskar(参考訳) 生成表現学習における最先端の手法は意味的不絡み合いをもたらすが、一般的には幾何学、アルベド、照明、カメラなどの物理的なシーンパラメータを考慮しない。 画像からシーンパラメータを復元するレンダリングプロセスをリバースする方法である逆レンダリングは、監督なしでシーンの物理的に不連続な表現を学習するためにも使用できると仮定する。 本稿では, 下流クラスタリング, 線形分類, セグメンテーションタスクの精度向上に寄与する学習表現における逆レンダリングの有用性を, シーンパラメータのゆがみと, アウト・オブ・ディストリビューション・ライティングや視点へのロバスト性を改善する, 新たなLeave-One-Out, Cycle Contrastive Los (LOOCC) の助けを借りて示す。 我々は,顔属性分類,感情認識,識別,顔セグメント化,車種分類など,さまざまな下流タスクを対象とした他の生成表現学習手法との比較を行った。 物理的に切り離された表現は、すべてのタスクと最大18%の精度で意味的に切り離された代替手段よりも高い精度が得られる。 本研究は,逆レンダリングの進歩と3次元理解を表現学習に適用する上で,今後の研究の動機となることを期待する。

State-of-the-art methods in generative representation learning yield semantic disentanglement, but typically do not consider physical scene parameters, such as geometry, albedo, lighting, or camera. We posit that inverse rendering, a way to reverse the rendering process to recover scene parameters from an image, can also be used to learn physically disentangled representations of scenes without supervision. In this paper, we show the utility of inverse rendering in learning representations that yield improved accuracy on downstream clustering, linear classification, and segmentation tasks with the help of our novel Leave-One-Out, Cycle Contrastive loss (LOOCC), which improves disentanglement of scene parameters and robustness to out-of-distribution lighting and viewpoints. We perform a comparison of our method with other generative representation learning methods across a variety of downstream tasks, including face attribute classification, emotion recognition, identification, face segmentation, and car classification. Our physically disentangled representations yield higher accuracy than semantically disentangled alternatives across all tasks and by as much as 18%. We hope that this work will motivate future research in applying advances in inverse rendering and 3D understanding to representation learning.
翻訳日:2022-04-12 17:11:31 公開日:2022-04-11
# (参考訳) オンラインドメイン適応オブジェクト検出に向けて

Towards Online Domain Adaptive Object Detection ( http://arxiv.org/abs/2204.05289v1 )

ライセンス: CC0 1.0
Vibashan VS, Poojan Oza and Vishal M. Patel(参考訳) 既存のオブジェクト検出モデルは、トレーニングデータとテストデータの両方が同じソースドメインからサンプリングされていると仮定します。 この仮定は、これらの検出器が新しい視覚領域に遭遇する現実世界のアプリケーションにデプロイされるときに当てはまらない。 非教師なしのドメイン適応(UDA)手法は一般的に、ドメインシフトによる悪影響を軽減するために使用される。 既存のUDAメソッドはオフラインで動作し、モデルがまずターゲットドメインに適応し、その後現実世界のアプリケーションにデプロイされる。 しかし、このオフライン適応戦略は、モデルがしばしば新しいドメインシフトに遭遇するため、現実世界のアプリケーションには適さない。 したがって、デプロイ時に遭遇するドメインシフトを連続的なオンライン方式で一般化する、実現可能なUDA手法を開発することが重要となる。 そこで本稿では,オンライン設定における対象領域の一般化を適応・改善する,新しい統一適応フレームワークを提案する。 特に,メモリ内のアイテムがドメインシフトを利用してターゲット分布の原型パターンを記録する,クロスアテンショントランスフォーマーベースのメモリモジュールであるMemXformerを紹介する。 さらに、memxformerは、新しいコントラスト損失を導くために強い正と負のペアを生成し、ターゲット固有の表現学習を強化する。 多様な検出ベンチマークの実験から、提案手法はオンラインとオフラインの両方で最先端のパフォーマンスを実現することができる。 私たちの知る限りでは、オブジェクト検出のためのオンラインおよびオフライン適応設定に対処する最初の取り組みである。 Code at https://github.com/V ibashan/online-od

Existing object detection models assume both the training and test data are sampled from the same source domain. This assumption does not hold true when these detectors are deployed in real-world applications, where they encounter new visual domain. Unsupervised Domain Adaptation (UDA) methods are generally employed to mitigate the adverse effects caused by domain shift. Existing UDA methods operate in an offline manner where the model is first adapted towards the target domain and then deployed in real-world applications. However, this offline adaptation strategy is not suitable for real-world applications as the model frequently encounters new domain shifts. Hence, it becomes critical to develop a feasible UDA method that generalizes to these domain shifts encountered during deployment time in a continuous online manner. To this end, we propose a novel unified adaptation framework that adapts and improves generalization on the target domain in online settings. In particular, we introduce MemXformer - a cross-attention transformer-based memory module where items in the memory take advantage of domain shifts and record prototypical patterns of the target distribution. Further, MemXformer produces strong positive and negative pairs to guide a novel contrastive loss, which enhances target specific representation learning. Experiments on diverse detection benchmarks show that the proposed strategy can produce state-of-the-art performance in both online and offline settings. To the best of our knowledge, this is the first work to address online and offline adaptation settings for object detection. Code at https://github.com/V ibashan/online-od
翻訳日:2022-04-12 17:08:07 公開日:2022-04-11
# (参考訳) ビデオデブラリングとデノジングに対するbasicvsr++の一般化について [全文訳有]

On the Generalization of BasicVSR++ to Video Deblurring and Denoising ( http://arxiv.org/abs/2204.05308v1 )

ライセンス: CC BY 4.0
Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy(参考訳) 長期情報の利用は、ビデオ復元における長年の問題である。 最近の basicvsr と basicvsr++ は、長期の伝播と効果的なアライメントにより、ビデオの超解像性能が著しく向上している。 彼らの成功は、異なるビデオ復元タスクに転送できるかどうかという問題につながった。 本稿では, basicvsr++ をビデオ復元タスクのための汎用フレームワークに拡張する。 入力と出力が同じ空間サイズを持つタスクでは、入力解像度はストライド畳み込みによって削減され効率が維持される。 BasicVSR++からの最小限の変更だけで、提案フレームワークは、ビデオのデブロアリングやデノーミングを含む様々なビデオ復元タスクにおいて、非常に効率的なパフォーマンスを実現する。 特にbasicvsr++は、最大79%のパラメータ削減と44倍のスピードアップで、transformerベースのアプローチに匹敵するパフォーマンスを実現している。 ビデオ再生作業における伝播とアライメントの重要性は,ビデオ超解像以上のものである。 コードとモデルはhttps://github.com/c kkelvinchan/basicvsr _plusplusで入手できる。

The exploitation of long-term information has been a long-standing problem in video restoration. The recent BasicVSR and BasicVSR++ have shown remarkable performance in video super-resolution through long-term propagation and effective alignment. Their success has led to a question of whether they can be transferred to different video restoration tasks. In this work, we extend BasicVSR++ to a generic framework for video restoration tasks. In tasks where inputs and outputs possess identical spatial size, the input resolution is reduced by strided convolutions to maintain efficiency. With only minimal changes from BasicVSR++, the proposed framework achieves compelling performance with great efficiency in various video restoration tasks including video deblurring and denoising. Notably, BasicVSR++ achieves comparable performance to Transformer-based approaches with up to 79% of parameter reduction and 44x speedup. The promising results demonstrate the importance of propagation and alignment in video restoration tasks beyond just video super-resolution. Code and models are available at https://github.com/c kkelvinchan/BasicVSR _PlusPlus.
翻訳日:2022-04-12 17:00:29 公開日:2022-04-11
# 拡張グラフ特徴集合とピラミッドデコーダによるポイントクラウドシーンの意味セグメンテーション

Semantic Segmentation for Point Cloud Scenes via Dilated Graph Feature Aggregation and Pyramid Decoders ( http://arxiv.org/abs/2204.04944v1 )

ライセンス: Link先を確認
Yongqiang Mao, Xian Sun, Wenhui Diao, Kaiqiang Chen, Zonghao Guo, Xiaonan Lu, Kun Fu(参考訳) 点雲のセマンティックセグメンテーションは、各点のカテゴリを密に予測することで、シーンの包括的理解を生成する。 レセプティブ・フィールドのユニシティのため、ポイント・クラウドのセグメンテーションは、類似した空間構造を持つインスタンスの誤分類をもたらすマルチ・レセプティブ・フィールドの特徴を表現するのに依然として困難である。 本稿では,拡張グラフ特徴集合(DGFA)をルーツとするグラフ畳み込みネットワークDGFA-Netを提案する。 提案する拡張グラフ畳み込み (DGConv) を基本構成ブロックとし, 様々な受容領域を持つ拡張グラフをキャプチャして, マルチスケールの特徴表現を集約するDGFAを設計した。 異なる解像度の点集合を計算ベースとして受容野情報をペナルティ化することを同時に検討することにより,MALossで駆動されるピラミッドデコーダを受容野の多様性のために導入する。 これら2つの側面を組み合わせることで、DGFA-Netは類似した空間構造を持つインスタンスのセグメンテーション性能を大幅に改善する。 S3DIS、ShapeNetPart、Tronto-3Dの実験では、DGFA-Netはベースラインアプローチよりも優れており、新しい最先端セグメンテーション性能を実現している。

Semantic segmentation of point clouds generates comprehensive understanding of scenes through densely predicting the category for each point. Due to the unicity of receptive field, semantic segmentation of point clouds remains challenging for the expression of multi-receptive field features, which brings about the misclassification of instances with similar spatial structures. In this paper, we propose a graph convolutional network DGFA-Net rooted in dilated graph feature aggregation (DGFA), guided by multi-basis aggregation loss (MALoss) calculated through Pyramid Decoders. To configure multi-receptive field features, DGFA which takes the proposed dilated graph convolution (DGConv) as its basic building block, is designed to aggregate multi-scale feature representation by capturing dilated graphs with various receptive regions. By simultaneously considering penalizing the receptive field information with point sets of different resolutions as calculation bases, we introduce Pyramid Decoders driven by MALoss for the diversity of receptive field bases. Combining these two aspects, DGFA-Net significantly improves the segmentation performance of instances with similar spatial structures. Experiments on S3DIS, ShapeNetPart and Toronto-3D show that DGFA-Net outperforms the baseline approach, achieving a new state-of-the-art segmentation performance.
翻訳日:2022-04-12 16:53:05 公開日:2022-04-11
# HiMODE: ハイブリッド単分子全方位深さ推定モデル

HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model ( http://arxiv.org/abs/2204.05007v1 )

ライセンス: Link先を確認
Masum Shah Junayed, Arezoo Sadeghzadeh, Md Baharul Islam, Lai-Kuan Wong, Tarkan Aydin(参考訳) 360{\deg}周囲をセンシングする幅広い用途のために、単眼全方位深度推定が研究の注目を集めている。 この分野での既存のアプローチは、地上深度マップ取得時に失われた小さなオブジェクトの詳細とデータを復元する上での制限に苦しむ。 本稿では, モジュールを効率よく設計し, 歪みや計算コストを低減できるハイブリッドCNN+Transformer(エンコーダ・デコーダ)アーキテクチャに基づいて, 性能劣化を伴わずに, 単分子全方位深度推定モデル(HiMODE)を提案する。 まず,HNetブロックに基づく特徴ピラミッドネットワークを設計し,エッジ近傍の高解像度特徴を抽出する。 トランスエンコーダとデコーダの自己およびクロスアテンション層と空間的/時空間的パッチにより、さらに性能が向上する。 さらに、パラメータ数を減らすために空間的残差ブロックが使用される。 各バックボーンブロックの入力画像から抽出した深度特徴とトランスフォーマーエンコーダデコーダが予測した生深度マップとをコンテキスト調整層に連通することにより,本モデルにより,地上構造よりも視覚的品質の高い深度マップを作成できる。 包括的アブレーション研究は各モジュールの重要性を示している。 stanford3d、matterport3d、suncgの3つのデータセットに関する広範な実験により、ヒメデは360{\deg}単眼深度推定で最先端のパフォーマンスを達成できることが示されている。

Monocular omnidirectional depth estimation is receiving considerable research attention due to its broad applications for sensing 360{\deg} surroundings. Existing approaches in this field suffer from limitations in recovering small object details and data lost during the ground-truth depth map acquisition. In this paper, a novel monocular omnidirectional depth estimation model, namely HiMODE is proposed based on a hybrid CNN+Transformer (encoder-decoder) architecture whose modules are efficiently designed to mitigate distortion and computational cost, without performance degradation. Firstly, we design a feature pyramid network based on the HNet block to extract high-resolution features near the edges. The performance is further improved, benefiting from a self and cross attention layer and spatial/temporal patches in the Transformer encoder and decoder, respectively. Besides, a spatial residual block is employed to reduce the number of parameters. By jointly passing the deep features extracted from an input image at each backbone block, along with the raw depth maps predicted by the transformer encoder-decoder, through a context adjustment layer, our model can produce resulting depth maps with better visual quality than the ground-truth. Comprehensive ablation studies demonstrate the significance of each individual module. Extensive experiments conducted on three datasets; Stanford3D, Matterport3D, and SunCG, demonstrate that HiMODE can achieve state-of-the-art performance for 360{\deg} monocular depth estimation.
翻訳日:2022-04-12 16:52:39 公開日:2022-04-11
# 変形可能なアンカーモデルによる構造認識運動伝達

Structure-Aware Motion Transfer with Deformable Anchor Model ( http://arxiv.org/abs/2204.05018v1 )

ライセンス: Link先を確認
Jiale Tao, Biao Wang, Borun Xu, Tiezheng Ge, Yuning Jiang, Wen Li, Lixin Duan(参考訳) 動き伝達タスクは、ソース画像と同一のオブジェクトタイプを描写した駆動ビデオが与えられた場合、ソース画像からの外観を保ちながら、駆動ビデオから動きを学習して映像を生成する。 本稿では,任意の物体の運動構造を,その先行構造情報を活用せずに自動的に検出できる,構造認識型モーションモデリング手法であるdeformable anchor model(dam)を提案する。 具体的には、既知の変形可能な部分モデル(DPM)にインスパイアされ、DAMは2つのタイプのアンカーまたはキーポイントを導入します。 一 原画像及び駆動映像から外観及び動作情報の両方をキャプチャする多数のモーションアンカー 二 物体構造情報の表現の学習の促進を図るため、動作アンカーにリンクされた潜伏ルートアンカー さらにダムは、より複雑な構造をモデル化するための潜在アンカーの追加により階層的に拡張することができる。 動作アンカーを遅延アンカーで正規化することにより、DAMはそれらの間の対応を強制し、構造情報が適切に捕捉され保存されることを保証する。 さらに、DAMは教師なしの方法で効果的に学習することができる。 提案したDAMを,異なるベンチマークデータセット上でのモーショントランスファーに有効に検証する。 大規模な実験により、DAMは既存の最先端手法と比較して優れた性能を発揮することが示された。

Given a source image and a driving video depicting the same object type, the motion transfer task aims to generate a video by learning the motion from the driving video while preserving the appearance from the source image. In this paper, we propose a novel structure-aware motion modeling approach, the deformable anchor model (DAM), which can automatically discover the motion structure of arbitrary objects without leveraging their prior structure information. Specifically, inspired by the known deformable part model (DPM), our DAM introduces two types of anchors or keypoints: i) a number of motion anchors that capture both appearance and motion information from the source image and driving video; ii) a latent root anchor, which is linked to the motion anchors to facilitate better learning of the representations of the object structure information. Moreover, DAM can be further extended to a hierarchical version through the introduction of additional latent anchors to model more complicated structures. By regularizing motion anchors with latent anchor(s), DAM enforces the correspondences between them to ensure the structural information is well captured and preserved. Moreover, DAM can be learned effectively in an unsupervised manner. We validate our proposed DAM for motion transfer on different benchmark datasets. Extensive experiments clearly demonstrate that DAM achieves superior performance relative to existing state-of-the-art methods.
翻訳日:2022-04-12 16:52:12 公開日:2022-04-11
# ピラミッドグラフトネットワークによる1段階高分解能塩分検出

Pyramid Grafting Network for One-Stage High Resolution Saliency Detection ( http://arxiv.org/abs/2204.05041v1 )

ライセンス: Link先を確認
Chenxi Xie, Changqun Xia, Mingcan Ma, Zhirui Zhao, Xiaowu Chen and Jia Li(参考訳) 近年,ディープニューラルネットワークに基づくsalient object detection (sod)法が注目されている。 しかし,低分解能入力用に設計された既存のSODモデルは,サンプリング深度と受容野の大きさの矛盾により,高分解能画像に不利な結果をもたらす。 本稿では,この矛盾を解決するために,トランスフォーマーとcnnバックボーンを用いて異なる解像度画像から特徴を独立に抽出し,その特徴をトランスフォーマーブランチからcnnブランチにグラフトする,ピラミッドグラフトネットワーク(pgnet)と呼ばれる新しい一段階フレームワークを提案する。 クロスモデルグラフトモジュール (cmgm) の提案により, cnn の分岐部では, 復号処理中の異なるソース特徴により, 分割された詳細な情報をより包括的に結合することが可能となった。 さらに,注意誘導損失(agl)を設計,cmgmが生成する注意行列を明示的に監視し,ネットワークが異なるモデルからの注意とよりよく相互作用できるようにする。 4k-8k解像度で5,920枚の画像を含む超高分解能saliency detection dataset uhrsdを提案する。 我々の知る限り、将来の研究でトレーニングやテストに使用できる高解像度SODタスクの量と解像度において最大のデータセットである。 UHRSDと広く使われているSODデータセットの十分な実験により,本手法は最先端の手法と比較して優れた性能を発揮することが示された。

Recent salient object detection (SOD) methods based on deep neural network have achieved remarkable performance. However, most of existing SOD models designed for low-resolution input perform poorly on high-resolution images due to the contradiction between the sampling depth and the receptive field size. Aiming at resolving this contradiction, we propose a novel one-stage framework called Pyramid Grafting Network (PGNet), using transformer and CNN backbone to extract features from different resolution images independently and then graft the features from transformer branch to CNN branch. An attention-based Cross-Model Grafting Module (CMGM) is proposed to enable CNN branch to combine broken detailed information more holistically, guided by different source feature during decoding process. Moreover, we design an Attention Guided Loss (AGL) to explicitly supervise the attention matrix generated by CMGM to help the network better interact with the attention from different models. We contribute a new Ultra-High-Resolutio n Saliency Detection dataset UHRSD, containing 5,920 images at 4K-8K resolutions. To our knowledge, it is the largest dataset in both quantity and resolution for high-resolution SOD task, which can be used for training and testing in future research. Sufficient experiments on UHRSD and widely-used SOD datasets demonstrate that our method achieves superior performance compared to the state-of-the-art methods.
翻訳日:2022-04-12 16:51:51 公開日:2022-04-11
# 未検出領域における少数ショット物体検出

Few-Shot Object Detection in Unseen Domains ( http://arxiv.org/abs/2204.05072v1 )

ライセンス: Link先を確認
Karim Guirguis, George Eskandar, Matthias Kayser, Bin Yang, Juergen Beyerer(参考訳) Few-shot Object Detection (FSOD) は、豊富なベースクラスで得られた知識を伝達することによって、限られたデータを持つ新しいオブジェクトクラスを学ぶために近年発展してきた。 fsodのアプローチは一般的に、新しいクラスの例とテスト時のデータが同じドメインに属すると仮定している。 しかし、この仮定は様々な産業やロボティクスの応用(例えば、オブジェクトの把握や操作)には当てはまらないため、モデルが異なる対象領域からクラスを推論しながら、ソースドメインから新しいクラスを学習することができる。 本稿では,fsodにおけるゼロショット領域適応(ドメイン一般化としても知られる)の課題について述べる。 具体的には,対象領域における新規クラスの画像やラベルは,トレーニング中に利用できないと仮定する。 ドメインギャップを解決するためのアプローチは2つあります。 まず、メタトレーニングのパラダイムを利用して、ベースクラスでドメイン不変の機能を学びます。 第2に、ドメイン固有の情報をすべて考慮し、いくつかの新しいクラスのショットに対して様々なデータ拡張手法を提案する。 さらに、ネットワークをドメインに依存しないクラス固有表現のみを符号化することに制限するため、前景提案とクラスプロトタイプ間の相互情報を最大化し、背景情報に対するネットワークのバイアスを低減するための対比的損失を提案する。 T-LESSデータセットを用いた実験により,提案手法は対象領域からの新規カテゴリのラベルや画像を活用することなく,領域ギャップを著しく緩和することに成功した。

Few-shot object detection (FSOD) has thrived in recent years to learn novel object classes with limited data by transfering knowledge gained on abundant base classes. FSOD approaches commonly assume that both the scarcely provided examples of novel classes and test-time data belong to the same domain. However, this assumption does not hold in various industrial and robotics applications (e.g., object grasping and manipulation), where a model can learn novel classes from a source domain while inferring on classes from a different target domain. In this work, we address the task of zero-shot domain adaptation, also known as domain generalization, for FSOD. Specifically, we assume that neither images nor labels of the novel classes in the target domain are available during training. Our approach for solving the domain gap is two-fold. First, we leverage a meta-training paradigm, where we learn domain-invariant features on the base classes. Second, we propose various data augmentations techniques on the few shots of novel classes to account for all possible domain-specific information. To further constraint the network into encoding domain-agnostic class-specific representations only, a contrastive loss is proposed to maximize the mutual information between foreground proposals and class prototypes, and to reduce the network's bias to the background information. Our experiments on the T-LESS dataset show that the proposed approach succeeds in alleviating the domain gap considerably without utilizing labels or images of novel categories from the target domain.
翻訳日:2022-04-12 16:51:26 公開日:2022-04-11
# XMP-Font:Few-Shot Font生成のための自己監督型クロスモダリティ事前トレーニング

XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font Generation ( http://arxiv.org/abs/2204.05084v1 )

ライセンス: Link先を確認
Wei Liu, Fangyue Liu, Fei Din, Qian He, Zili Yi(参考訳) 新しいフォントライブラリを生成することは、glyphに富んだスクリプトに対して非常に労力と時間を要する作業である。 そのため、テスト中に微調整なしでグリフ参照を数回必要とするため、フォント生成がほとんど必要となる。 既存の手法はスタイル・コンテンツ・アンタングルのパラダイムに従っており、参照グリフのスタイルコードとソースのコンテンツ表現を組み合わせることで新しいフォントが生成されることを期待している。 しかし、これらの少数ショットフォント生成手法は、コンテンツ非依存のスタイル表現をキャプチャできないか、あるいは、コンポーネント間間隔や「接続ストローク」のようなハイパーコンポーネント機能を含む多くの中国フォントスタイルをモデル化するには不十分な、局所的なコンポーネントワイドスタイル表現を使用するかのいずれかである。 これらの欠点を解消し, スタイル表現をより信頼性の高いものにするため, グリフ画像と対応するストロークラベルを併用した自己教師型クロスモダリティ事前学習戦略と, クロスモダリティトランスフォーマーベースのエンコーダを提案する。 クロスモダリティエンコーダは、すべてのスケール(ストロークレベル、コンポーネントレベル、キャラクタレベル)のコンテントスタイルのディスタングルメントおよびモデリングスタイル表現を容易にするクロスモダリティ相関を効果的に捉えるために、自己教師付きで事前訓練されている。 事前訓練されたエンコーダは、微調整なしで下流フォント生成タスクに適用される。 提案手法と最先端手法との実験的比較により,全スケールのスタイルの転送に成功した。 さらに、参照グリフは1つしか必要とせず、第2のベストより28%低いマイショットフォント生成タスクで最悪のケースの最低レートを達成する。

Generating a new font library is a very labor-intensive and time-consuming job for glyph-rich scripts. Few-shot font generation is thus required, as it requires only a few glyph references without fine-tuning during test. Existing methods follow the style-content disentanglement paradigm and expect novel fonts to be produced by combining the style codes of the reference glyphs and the content representations of the source. However, these few-shot font generation methods either fail to capture content-independent style representations, or employ localized component-wise style representations, which is insufficient to model many Chinese font styles that involve hyper-component features such as inter-component spacing and "connected-stroke&quo t;. To resolve these drawbacks and make the style representations more reliable, we propose a self-supervised cross-modality pre-training strategy and a cross-modality transformer-based encoder that is conditioned jointly on the glyph image and the corresponding stroke labels. The cross-modality encoder is pre-trained in a self-supervised manner to allow effective capture of cross- and intra-modality correlations, which facilitates the content-style disentanglement and modeling style representations of all scales (stroke-level, component-level and character-level). The pre-trained encoder is then applied to the downstream font generation task without fine-tuning. Experimental comparisons of our method with state-of-the-art methods demonstrate our method successfully transfers styles of all scales. In addition, it only requires one reference glyph and achieves the lowest rate of bad cases in the few-shot font generation task 28% lower than the second best
翻訳日:2022-04-12 16:51:00 公開日:2022-04-11
# M^2BEV:Unified Birds-Eye View Representationによるマルチカメラ関節3次元検出とセグメンテーション

M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation ( http://arxiv.org/abs/2204.05088v1 )

ライセンス: Link先を確認
Enze Xie, Zhiding Yu, Daquan Zhou, Jonah Philion, Anima Anandkumar, Sanja Fidler, Ping Luo, Jose M. Alvarez(参考訳) 本稿では,複数カメラ画像入力による鳥眼視〜(bev)空間における3次元物体検出と地図分割を共同で行う統一フレームワークであるm$^2$bevを提案する。 プロセスの検出とセグメンテーションを別々に行う以前のほとんどの作業とは異なり、M$^2$BEVは両方のタスクを統一されたモデルで推論し、効率を向上させる。 M$^2$BEVは、マルチビュー2D画像をエゴカー座標の3次元BEV特徴に効率的に変換する。 このようなBEV表現は、異なるタスクが1つのエンコーダを共有することができるため重要である。 1)voxel特徴写像の空間次元を減少させる効率的なbevエンコーダ設計である。 2) グラウンドトルース3Dボックスをアンカーに割り当てるためにラーニング・トゥ・マッチを利用する動的ボックス割り当て戦略。 (3)より遠方の予測のためにより大きな重量で補強するBEV中心性再重み付け、(4)大規模2D検出事前訓練及び補助監督。 これらの設計は、奥行き情報が欠落しているカメラベースの3d知覚タスクに有益であることを示す。 m$^2$bevはメモリ効率が良く、入力として相当高い解像度の画像が得られる。 nuScenesの実験では、M$^2$BEVは3Dオブジェクト検出とBEVセグメンテーションの両方で最先端の結果が得られ、これら2つのタスクで最高の1つのモデルはそれぞれ42.5mAPと57.0mIoUを達成した。

In this paper, we propose M$^2$BEV, a unified framework that jointly performs 3D object detection and map segmentation in the Birds Eye View~(BEV) space with multi-camera image inputs. Unlike the majority of previous works which separately process detection and segmentation, M$^2$BEV infers both tasks with a unified model and improves efficiency. M$^2$BEV efficiently transforms multi-view 2D image features into the 3D BEV feature in ego-car coordinates. Such BEV representation is important as it enables different tasks to share a single encoder. Our framework further contains four important designs that benefit both accuracy and efficiency: (1) An efficient BEV encoder design that reduces the spatial dimension of a voxel feature map. (2) A dynamic box assignment strategy that uses learning-to-match to assign ground-truth 3D boxes with anchors. (3) A BEV centerness re-weighting that reinforces with larger weights for more distant predictions, and (4) Large-scale 2D detection pre-training and auxiliary supervision. We show that these designs significantly benefit the ill-posed camera-based 3D perception tasks where depth information is missing. M$^2$BEV is memory efficient, allowing significantly higher resolution images as input, with faster inference speed. Experiments on nuScenes show that M$^2$BEV achieves state-of-the-art results in both 3D object detection and BEV segmentation, with the best single model achieving 42.5 mAP and 57.0 mIoU in these two tasks, respectively.
翻訳日:2022-04-12 16:50:28 公開日:2022-04-11
# 彩色性能の人間対客観的評価

Human vs Objective Evaluation of Colourisation Performance ( http://arxiv.org/abs/2204.05200v1 )

ライセンス: Link先を確認
Se\'an Mullery and Paul F. Whelan(参考訳) グレースケール画像の自動色付けは、グレースケール以前のフルカラー画像を作成するプロセスである。 グレースケール以前の色は多種多様であるため、不適切な問題である。 自動カラー化における現在のSOTAは、イメージ・ツー・イメージ型のDeep Convolutional Neural NetworksとGenerative Adversarial Networksが最大の約束を示している。 色付けの最終目標は、人間のビューアーにもっとも適しているように見えるフルカラー画像を作成することだが、人間の評価はコストと時間を要する。 この研究は、一般的に使用される客観的指標が人間の意見とどのように相関するかを評価する。 我々はまた、色彩化の面が人間の意見に最も大きな影響を与えるかを決定することを試みる。 BSDデータセットから得られた20の画像に対して、ローカルおよびグローバルな変更からなる65のリカラー化を作成します。 評価スコアはAmazon Mechanical Turkを使ってクラウドソースされ、画像とともにHuman Evaluated Colourisation Dataset(HECD)と呼ばれる拡張可能なデータセットを形成する。 統計的に有意な相関関係は人対人対人得点と少数の客観的尺度の間にあるが,相関関係の強さは低い。 人間の観察者は、自然に発生する物の不正確な色相に最も寛容である証拠もある。

Automatic colourisation of grey-scale images is the process of creating a full-colour image from the grey-scale prior. It is an ill-posed problem, as there are many plausible colourisations for a given grey-scale prior. The current SOTA in auto-colourisation involves image-to-image type Deep Convolutional Neural Networks with Generative Adversarial Networks showing the greatest promise. The end goal of colourisation is to produce full colour images that appear plausible to the human viewer, but human assessment is costly and time consuming. This work assesses how well commonly used objective measures correlate with human opinion. We also attempt to determine what facets of colourisation have the most significant effect on human opinion. For each of 20 images from the BSD dataset, we create 65 recolourisations made up of local and global changes. Opinion scores are then crowd sourced using the Amazon Mechanical Turk and together with the images this forms an extensible dataset called the Human Evaluated Colourisation Dataset (HECD). While we find statistically significant correlations between human-opinion scores and a small number of objective measures, the strength of the correlations is low. There is also evidence that human observers are most intolerant to an incorrect hue of naturally occurring objects.
翻訳日:2022-04-12 16:49:12 公開日:2022-04-11
# CFA:一般化Few-Shotオブジェクト検出のための制約に基づくファインタニング手法

CFA: Constraint-based Finetuning Approach for Generalized Few-Shot Object Detection ( http://arxiv.org/abs/2204.05220v1 )

ライセンス: Link先を確認
Karim Guirguis, Ahmed Hendawy, George Eskandar, Mohamed Abdelsamad, Matthias Kayser, Juergen Beyerer(参考訳) Few-shot Object Detection (FSOD)は、豊富なベースデータから事前の知識を活用して、限られたデータで新しいカテゴリを検出する。 一般化された少数ショットオブジェクト検出(g-fsod)は、これまで見てきたベースクラスを忘れずにfsodに取り組むことを目的としている。 現在のFSODメソッドは破滅的な忘れ込みに悩まされているが、G-FSODはこの制限に対処する一方で、最先端のFSODと比較して新しいタスクのパフォーマンス低下を示す。 本研究は, モデル容量を増大させることなく, 新たな課題に対する競争的結果を達成しつつ, 破滅的な忘れを緩和するための制約に基づく微調整手法(CFA)を提案する。 CFAは、A-GEM(Average Gradient Episodic Memory)という連続学習法をG-FSODに適応させる。 具体的には、新しい勾配更新ルールを導出する勾配探索戦略により多くの制約が課され、ベースクラスと新規クラスの知識交換がより良くなる。 提案手法を評価するため,MS-COCOおよびPASCAL-VOCデータセットについて広範な実験を行った。 提案手法は,基本タスクにマイナーな縮退を伴う新しいタスクにおいて,現在のfsodおよびg-fsodアプローチよりも優れる。 さらに、cfaはfsodアプローチと直交し、モデルのキャパシティや推論時間を増加させることなく、プラグアンドプレイモジュールとして動作する。

Few-shot object detection (FSOD) seeks to detect novel categories with limited data by leveraging prior knowledge from abundant base data. Generalized few-shot object detection (G-FSOD) aims to tackle FSOD without forgetting previously seen base classes and, thus, accounts for a more realistic scenario, where both classes are encountered during test time. While current FSOD methods suffer from catastrophic forgetting, G-FSOD addresses this limitation yet exhibits a performance drop on novel tasks compared to the state-of-the-art FSOD. In this work, we propose a constraint-based finetuning approach (CFA) to alleviate catastrophic forgetting, while achieving competitive results on the novel task without increasing the model capacity. CFA adapts a continual learning method, namely Average Gradient Episodic Memory (A-GEM) to G-FSOD. Specifically, more constraints on the gradient search strategy are imposed from which a new gradient update rule is derived, allowing for better knowledge exchange between base and novel classes. To evaluate our method, we conduct extensive experiments on MS-COCO and PASCAL-VOC datasets. Our method outperforms current FSOD and G-FSOD approaches on the novel task with minor degeneration on the base task. Moreover, CFA is orthogonal to FSOD approaches and operates as a plug-and-play module without increasing the model capacity or inference time.
翻訳日:2022-04-12 16:48:51 公開日:2022-04-11
# 手術的アクショントリプルトデータセットにおける方法ベンチマークのためのデータ分割とメトリクス

Data Splits and Metrics for Method Benchmarking on Surgical Action Triplet Datasets ( http://arxiv.org/abs/2204.05235v1 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Nicolas Padoy(参考訳) データとアノテーションの生成に加えて、センシブルなデータ分割戦略と評価メトリクスの開発は、ベンチマークデータセットの作成に不可欠である。 このプラクティスは、データの利用、均質評価、データセットの研究方法の統一的な比較に関するコンセンサスを保証する。 本研究は,外科手術を<instrument, verb, target>の三重項として定式化する50のビデオ手術データセットであるcholect50に焦点を当てた。 本稿では,CholecT50とCholecT45データセットの標準分割について紹介し,既存のデータセットとの比較について述べる。 CholecT45は、ColecT50データセットの45ビデオの最初の公開リリースである。 また,手術用トリプレットのモデル評価のためのメトリクスライブラリivtmetricsを開発した。 さらに、提案したデータ分割とメトリクスを用いて評価するために、最も多く使用されているディープラーニングフレームワーク(PyTorchとTensorFlow)でベースラインメソッドを再現し、それらを公開して、将来の研究をサポートする。 提案するデータ分割と評価メトリクスは、データセットの研究進捗をグローバルに追跡し、さらなるデプロイのために最適なモデル選択を容易にする。

In addition to generating data and annotations, devising sensible data splitting strategies and evaluation metrics is essential for the creation of a benchmark dataset. This practice ensures consensus on the usage of the data, homogeneous assessment, and uniform comparison of research methods on the dataset. This study focuses on CholecT50, which is a 50 video surgical dataset that formalizes surgical activities as triplets of <instrument, verb, target>. In this paper, we introduce the standard splits for the CholecT50 and CholecT45 datasets and show how they compare with existing use of the dataset. CholecT45 is the first public release of 45 videos of CholecT50 dataset. We also develop a metrics library, ivtmetrics, for model evaluation on surgical triplets. Furthermore, we conduct a benchmark study by reproducing baseline methods in the most predominantly used deep learning frameworks (PyTorch and TensorFlow) to evaluate them using the proposed data splits and metrics and release them publicly to support future research. The proposed data splits and evaluation metrics will enable global tracking of research progress on the dataset and facilitate optimal model selection for further deployment.
翻訳日:2022-04-12 16:48:31 公開日:2022-04-11
# 単一光子構造光

Single-Photon Structured Light ( http://arxiv.org/abs/2204.05300v1 )

ライセンス: Link先を確認
Varun Sundar, Sizhuo Ma, Aswin C. Sankaranarayanan and Mohit Gupta(参考訳) 単光子アバランシェダイオード(SPAD)アレイを用いて高フレームレートと低光度で3次元走査を可能にする新しい構造光技術を提案する。 この技術は"Single-Photon Structured Light"と呼ばれ、露光中の光子到着の有無を示すバイナリイメージを検知することで機能する。SPADアレイは高速バイナリプロジェクタと組み合わせて使用されており、両方のデバイスは20〜kHzの速度で動作している。 得られた2値画像は光子ノイズに強く影響され、周囲の光源によって容易に劣化する。 そこで我々は,プロジェクタやカメラデフォーカスなどの短距離効果に対して頑健に設計された誤り訂正符号と,両装置間の解像度ミスマッチを用いた新しい時間系列を開発する。 実験室のプロトタイプは、非常に低いアルベドや高速な動きの物体や、強い環境照明下でのシーンを含む、困難なシナリオを3Dイメージングできる。

We present a novel structured light technique that uses Single Photon Avalanche Diode (SPAD) arrays to enable 3D scanning at high-frame rates and low-light levels. This technique, called "Single-Photon Structured Light", works by sensing binary images that indicates the presence or absence of photon arrivals during each exposure; the SPAD array is used in conjunction with a high-speed binary projector, with both devices operated at speeds as high as 20~kHz. The binary images that we acquire are heavily influenced by photon noise and are easily corrupted by ambient sources of light. To address this, we develop novel temporal sequences using error correction codes that are designed to be robust to short-range effects like projector and camera defocus as well as resolution mismatch between the two devices. Our lab prototype is capable of 3D imaging in challenging scenarios involving objects with extremely low albedo or undergoing fast motion, as well as scenes under strong ambient illumination.
翻訳日:2022-04-12 16:48:11 公開日:2022-04-11
# (参考訳) エンティティ、日付、言語:T0による歴史的テキストのゼロショット [全文訳有]

Entities, Dates, and Languages: Zero-Shot on Historical Texts with T0 ( http://arxiv.org/abs/2204.05211v1 )

ライセンス: CC BY 4.0
Francesco De Toni, Christopher Akiki, Javier de la Rosa, Cl\'ementine Fourrier, Enrique Manjavacas, Stefan Schweter, Daniel van Strien(参考訳) 本研究は,最近実証されたt0モデルのゼロショット能力が,分散言語や時間単位に対する名前付きエンティティ認識に拡張されるかどうかについて検討する。 3つの言語で歴史的な新聞コーパスをテストベッドとして使用し、名前付きエンティティの抽出にプロンプトを使用する。 以上の結果から,プロンプトに基づくゼロショット・ゼロランゲージ・エンティティ認識に対するナイーブなアプローチは誤りやすいが,ラベル付きデータセットを欠いた歴史言語に対するアプローチの可能性を強調した。 さらに,文献の出版日や言語を予測するため,T0様のモデルも探索可能であることも確認した。

In this work, we explore whether the recently demonstrated zero-shot abilities of the T0 model extend to Named Entity Recognition for out-of-distribution languages and time periods. Using a historical newspaper corpus in 3 languages as test-bed, we use prompts to extract possible named entities. Our results show that a naive approach for prompt-based zero-shot multilingual Named Entity Recognition is error-prone, but highlights the potential of such an approach for historical languages lacking labeled datasets. Moreover, we also find that T0-like models can be probed to predict the publication date and language of a document, which could be very relevant for the study of historical texts.
翻訳日:2022-04-12 16:45:18 公開日:2022-04-11
# ロバスト性と非固定性探索範囲を有する新しいステレオマッチングパイプライン

A novel stereo matching pipeline with robustness and unfixed disparity search range ( http://arxiv.org/abs/2204.04865v1 )

ライセンス: Link先を確認
Jiazhi Liu and Feng Liu(参考訳) ステレオマッチングは様々なアプリケーションにとって必須の基盤であるが、ほとんどのステレオマッチング手法は一般化性能が低く、一定の不一致の探索範囲を必要とする。 さらに, ステレオマッチングでは, 正の差のみを含む場面に焦点が当てられているが, 3d映画のような正の差と負の差の両方を含むシーンは無視されている。 本稿では,まず両眼差に基づく半拡散不等式マップを計算し,その後,単眼的手がかりによって残りを完結させる新しいステレオマッチングパイプラインを提案する。 新しいステレオマッチングパイプラインには次のような利点がある。 1) 現在のステレオマッチング法よりも優れた一般化性能を有する。 2) 固定格差探索範囲の制限を緩和する。 3)3dマルチメディアのビュー合成やvr/arといった、より潜在的なアプリケーションを持つポジティブとネガティブの両方の異なるシーンを扱うことができる。 実験結果は,新しいステレオマッチングパイプラインの有効性を示す。

Stereo matching is an essential basis for various applications, but most stereo matching methods have poor generalization performance and require a fixed disparity search range. Moreover, current stereo matching methods focus on the scenes that only have positive disparities, but ignore the scenes that contain both positive and negative disparities, such as 3D movies. In this paper, we present a new stereo matching pipeline that first computes semi-dense disparity maps based on binocular disparity, and then completes the rest depending on monocular cues. The new stereo matching pipeline have the following advantages: It 1) has better generalization performance than most of the current stereo matching methods; 2) relaxes the limitation of a fixed disparity search range; 3) can handle the scenes that involve both positive and negative disparities, which has more potential applications, such as view synthesis in 3D multimedia and VR/AR. Experimental results demonstrate the effectiveness of our new stereo matching pipeline.
翻訳日:2022-04-12 16:26:36 公開日:2022-04-11
# 室内家具レイアウト生成のための構造化グラフ変動オートエンコーダ

Structured Graph Variational Autoencoders for Indoor Furniture layout Generation ( http://arxiv.org/abs/2204.04867v1 )

ライセンス: Link先を確認
Aditya Chattopadhyay, Xi Zhang, David Paul Wipf, Rene Vidal, Himanshu Arora(参考訳) 室内3Dシーンのレイアウトを生成するための構造化グラフ変分オートエンコーダを提案する。 部屋の種類(リビングルームや図書館など)や部屋のレイアウト(床や壁などの部屋の要素)を考えると、私たちの建築は部屋のタイプやレイアウトと整合したオブジェクト(ソファ、テーブル、椅子などの家具)のコレクションを生成します。 これは、生成されたシーンは複数の制約を満たすべきであるため、難しい問題である。例えば、各オブジェクトは部屋の中に横たわり、2つのオブジェクトは同じボリュームを占有できない。 これらの課題に対処するために,これらの関係を属性グラフ上のソフト制約として符号化する深層生成モデルを提案する(例えば,ノードがクラス,ポーズ,サイズなどの部屋や家具の要素の属性をキャプチャし,エッジが相対方向などの幾何学的関係をキャプチャする)。 アーキテクチャは、入力グラフを構造化された潜在空間にマッピングするグラフエンコーダと、潜在コードとルームグラフを与えられた家具グラフを生成するグラフデコーダで構成されている。 潜在空間は、高度に構造化されたシーンの生成を容易にする自己回帰前処理でモデル化される。 また,マッチング学習と制約学習を組み合わせた効率的な学習手法を提案する。 3D-FRONTデータセットを用いた実験により,本手法は多様で室内レイアウトに適応したシーンを生成する。

We present a structured graph variational autoencoder for generating the layout of indoor 3D scenes. Given the room type (e.g., living room or library) and the room layout (e.g., room elements such as floor and walls), our architecture generates a collection of objects (e.g., furniture items such as sofa, table and chairs) that is consistent with the room type and layout. This is a challenging problem because the generated scene should satisfy multiple constrains, e.g., each object must lie inside the room and two objects cannot occupy the same volume. To address these challenges, we propose a deep generative model that encodes these relationships as soft constraints on an attributed graph (e.g., the nodes capture attributes of room and furniture elements, such as class, pose and size, and the edges capture geometric relationships such as relative orientation). The architecture consists of a graph encoder that maps the input graph to a structured latent space, and a graph decoder that generates a furniture graph, given a latent code and the room graph. The latent space is modeled with auto-regressive priors, which facilitates the generation of highly structured scenes. We also propose an efficient training procedure that combines matching and constrained learning. Experiments on the 3D-FRONT dataset show that our method produces scenes that are diverse and are adapted to the room layout.
翻訳日:2022-04-12 16:26:21 公開日:2022-04-11
# カテゴリー認識型トランスフォーマネットワークによる人間と物体のインタラクション検出

Category-Aware Transformer Network for Better Human-Object Interaction Detection ( http://arxiv.org/abs/2204.04911v1 )

ライセンス: Link先を確認
Leizhen Dong, Zhimin Li, Kunlun Xu, Zhijun Zhang, Luxin Yan, Sheng Zhong, Xu Zou(参考訳) 人間と関係する物体をその相互作用を認識しながら位置決めすることを目的とした人物体相互作用検出(HOI)は、静止画像を理解する上で重要である。 近年,変圧器モデルがhoi検出の進展を著しく改善している。 しかし、モデルのオブジェクトクエリは常に単にゼロとして初期化され、パフォーマンスに影響するため、これらのモデルの能力は十分に検討されていない。 本稿では,対象クエリーをカテゴリ認識意味情報で初期化することにより,トランスフォーマティブ型hoi検出器の促進について検討する。 そこで我々は,CATN(Calegory-Aware Transformer Network)を提案する。 具体的には、オブジェクトクエリは、外部オブジェクト検出モデルで表現されるカテゴリ優先によって初期化され、パフォーマンスが向上する。 また、これらのカテゴリ優先は、注意機構を介して特徴の表現能力を高めるためにさらに使用できる。 私たちはまず、Oracleの実験を通じてObject Queryを基礎となるカテゴリ情報で初期化することで、私たちのアイデアを検証しました。 そして、我々のアイデアを備えたhoi検出モデルが、新たな最先端結果を達成するために、ベースラインを大きなマージンで上回っていることを示すために、広範な実験が行われました。

Human-Object Interactions (HOI) detection, which aims to localize a human and a relevant object while recognizing their interaction, is crucial for understanding a still image. Recently, transformer-based models have significantly advanced the progress of HOI detection. However, the capability of these models has not been fully explored since the Object Query of the model is always simply initialized as just zeros, which would affect the performance. In this paper, we try to study the issue of promoting transformer-based HOI detectors by initializing the Object Query with category-aware semantic information. To this end, we innovatively propose the Category-Aware Transformer Network (CATN). Specifically, the Object Query would be initialized via category priors represented by an external object detection model to yield better performance. Moreover, such category priors can be further used for enhancing the representation ability of features via the attention mechanism. We have firstly verified our idea via the Oracle experiment by initializing the Object Query with the groundtruth category information. And then extensive experiments have been conducted to show that a HOI detection model equipped with our idea outperforms the baseline by a large margin to achieve a new state-of-the-art result.
翻訳日:2022-04-12 16:25:56 公開日:2022-04-11
# 多人数3次元姿勢推定のための置換不変リレーショナルネットワーク

Permutation-Invarian t Relational Network for Multi-person 3D Pose Estimation ( http://arxiv.org/abs/2204.04913v1 )

ライセンス: Link先を確認
Nicolas Ugrinovic, Adria Ruiz, Antonio Agudo, Alberto Sanfeliu, Francesc Moreno-Noguer(参考訳) 単一のRGB画像から複数の人物の3Dポーズを復元することは、2D-3Dの奥行きのあいまいさだけでなく、対人閉塞や身体の切り離しによる問題である。 近年の研究では、異なる人々に対して同時に推論することで有望な結果が得られている。 PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、潜在的にノイズの多い初期3Dポーズを洗練する。 しかし,提案手法では,個人を参照として定義することが必要であり,アルゴリズムの結果はこの選択に敏感である。 本稿では,集合トランスフォーマー上に構築した置換不変な方法で,その数とは独立に,人々のインタラクション全体をモデル化する。 この表現を利用して, 市販検出器から推定した初期3次元ポーズを洗練する。 徹底的な評価の結果,初期推定3dポーズの性能を大きなマージンで向上させ,mupots-3d,cmu panoptic,nba2kデータセットの最先端結果を得ることができた。 さらに,提案モジュールは計算効率が高く,多人数場面における任意の3dポーズ検出器のドロップイン補完として使用できる。

Recovering multi-person 3D poses from a single RGB image is a severely ill-conditioned problem due not only to the inherent 2D-3D depth ambiguity but also because of inter-person occlusions and body truncations. Recent works have shown promising results by simultaneously reasoning for different people but in all cases within a local neighborhood. An interesting exception is PI-Net, which introduces a self-attention block to reason for all people in the image at the same time and refine potentially noisy initial 3D poses. However, the proposed methodology requires defining one of the individuals as a reference, and the outcome of the algorithm is sensitive to this choice. In this paper, we model people interactions at a whole, independently of their number, and in a permutation-invarian t manner building upon the Set Transformer. We leverage on this representation to refine the initial 3D poses estimated by off-the-shelf detectors. A thorough evaluation demonstrates that our approach is able to boost the performance of the initially estimated 3D poses by large margins, achieving state-of-the-art results on MuPoTS-3D, CMU Panoptic and NBA2K datasets. Additionally, the proposed module is computationally efficient and can be used as a drop-in complement for any 3D pose detector in multi-people scenes.
翻訳日:2022-04-12 16:25:38 公開日:2022-04-11
# (参考訳) シングル・トゥルン・ディベートは、読みにくい質問に答えるのに役に立たない [全文訳有]

Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehensio n Questions ( http://arxiv.org/abs/2204.05212v1 )

ライセンス: CC BY 4.0
Alicia Parrish and Harsh Trivedi and Ethan Perez and Angelica Chen and Nikita Nangia and Jason Phang and Samuel R. Bowman(参考訳) 現在のQAシステムは、生成した回答の説明や証拠なしに、合理的に聞こえるが偽の回答を生成することができる。 これは、機械学習システムにおける信頼を構築するための挑戦である。 我々は、対立する側を考慮して難しい質問が答えられる現実世界の状況からインスピレーションを受けます(Irving et al., 2018)。 複数選択QAの例では、2つの候補解に対する説明を生成するためのトレーニングモデルの初期ステップとして、議論スタイルのセットアップにおいて、正解と誤解の両方のための単一の引数のデータセットを構築した。 コンテキストに精通した人間が、事前に選択した正解と不正確な回答に対して説得力のある説明を書き、その説明がフルコンテキストを読まない人間が正しい回答をより正確に決定できるかどうかをテストします。 設定中の説明が人間の精度を改善するわけではないが、基本条件は、人間の選択したテキストスニペットを提供することで精度が向上することを示している。 これらの知見を用いて,今後のデータ収集に向けた議論を改善する方法を提案する。

Current QA systems can generate reasonable-sounding yet false answers without explanation or evidence for the generated answer, which is especially problematic when humans cannot readily check the model's answers. This presents a challenge for building trust in machine learning systems. We take inspiration from real-world situations where difficult questions are answered by considering opposing sides (see Irving et al., 2018). For multiple-choice QA examples, we build a dataset of single arguments for both a correct and incorrect answer option in a debate-style set-up as an initial step in training models to produce explanations for two candidate answers. We use long contexts -- humans familiar with the context write convincing explanations for pre-selected correct and incorrect answers, and we test if those explanations allow humans who have not read the full context to more accurately determine the correct answer. We do not find that explanations in our set-up improve human accuracy, but a baseline condition shows that providing human-selected text snippets does improve accuracy. We use these findings to suggest ways of improving the debate set up for future data collection efforts.
翻訳日:2022-04-12 16:23:27 公開日:2022-04-11
# 最小センシングの原則:都市ビッグデータ分析のためのプライバシーにやさしいセンシングパラダイム

The Principle of Least Sensing: A Privacy-Friendly Sensing Paradigm for Urban Big Data Analytics ( http://arxiv.org/abs/2204.05168v1 )

ライセンス: Link先を確認
Leye Wang(参考訳) 世界中のデータ保護規制の出現に伴い、法律で規制されたビッグデータ分析の実施は困難で根本的な問題となっている。 本稿では,法規制されたビッグデータ分析への期待できるセンシングパラダイムである最小センシングの原則を紹介する。

With the worldwide emergence of data protection regulations, how to conduct law-regulated big data analytics becomes a challenging and fundamental problem. This article introduces the principle of least sensing, a promising sensing paradigm toward law-regulated big data analytics.
翻訳日:2022-04-12 16:08:53 公開日:2022-04-11
# 教師のためのペルソナ駆動支配マップ(PDSM)の作成

Persona-driven Dominant/Submissive Map (PDSM) Generation for Tutorials ( http://arxiv.org/abs/2204.05217v1 )

ライセンス: Link先を確認
Michael Cerny Green, Ahmed Khalifa, M Charity, and Julian Togelius(参考訳) 本稿では,自動ペルソナ駆動型ビデオゲームチュートリアルのレベル生成手法を提案する。 チュートリアルレベルは、プレイヤーが異なるルールやゲームメカニックを探索し発見できるシナリオである。 手続き型ペルソナ(procedural persona)は、ジェネレータを誘導して、特定のプレイスタイル動作を奨励または抑止するコンテンツを作成することができる。 本システムでは、プロシージャペルソナを用いて、制約付きMAP-Elitesと呼ばれる品質多様性アルゴリズムを用いて進化するレベルの行動特性を算出する。 進化したマップの品質はその単純さによって決定されます。 本研究では,生成した地図がペルソナ的な振る舞いを強く促進あるいは阻止し,簡単な解法から複雑なパズルレベルまで,チュートリアル生成システムの完璧な候補となることを示す。

In this paper, we present a method for automated persona-driven video game tutorial level generation. Tutorial levels are scenarios in which the player can explore and discover different rules and game mechanics. Procedural personas can guide generators to create content which encourages or discourages certain playstyle behaviors. In this system, we use procedural personas to calculate the behavioral characteristics of levels which are evolved using the quality-diversity algorithm known as Constrained MAP-Elites. An evolved map's quality is determined by its simplicity: the simpler it is, the better it is. Within this work, we show that the generated maps can strongly encourage or discourage different persona-like behaviors and range from simple solutions to complex puzzle-levels, making them perfect candidates for a tutorial generative system.
翻訳日:2022-04-12 16:08:49 公開日:2022-04-11
# (参考訳) モデルベースオフライン強化学習のサンプル複雑性の解消

Settling the Sample Complexity of Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2204.05275v1 )

ライセンス: CC BY 4.0
Gen Li and Laixi Shi and Yuxin Chen and Yuejie Chi and Yuting Wei(参考訳) 本稿では,事前収集データを用いて学習するオフライン強化学習(RL)について検討する。 効果的なオフラインRLは、分散シフトと限られたデータカバレッジに対応できる。 しかしながら、以前のアルゴリズムや解析では、サンプルの最適性に到達するために、サブオプティカルなサンプルの複雑さや高いバーンインコストが伴うため、サンプルが飢えたアプリケーションでは、効率的なオフラインrlの障害となる。 モデルベース(もしくは「プラグイン」)アプローチは,表型マルコフ決定プロセス(MDP)のバーンインコストを伴わずに,最小限のサンプル複雑性を実現する。 具体的には有限水平(resp)を考える。 $\gamma$-discounted infinite-horizon) mdpには$s$ statesとhorizon $h$ (resp.com)がある。 有効地平線$\frac{1}{1-\gamma}$) と仮定すると、データの分散シフトは、ある単一ポリスクリッピングされた集中係数$C^{\star}_{\text{clipped}}$によって反映される。 モデルベースオフライン RL は \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] のサンプル複雑性で $\varepsilon$-accura cy を得る。 我々のアルゴリズムは、ベルンシュタイン型のペナルティを持つ値反復の「悲観的」な変種であり、高度な分散還元を必要としない。

This paper is concerned with offline reinforcement learning (RL), which learns using pre-collected data without further exploration. Effective offline RL would be able to accommodate distribution shift and limited data coverage. However, prior algorithms or analyses either suffer from suboptimal sample complexities or incur high burn-in cost to reach sample optimality, thus posing an impediment to efficient offline RL in sample-starved applications. We demonstrate that the model-based (or "plug-in") approach achieves minimax-optimal sample complexity without burn-in cost for tabular Markov decision processes (MDPs). Concretely, consider a finite-horizon (resp. $\gamma$-discounted infinite-horizon) MDP with $S$ states and horizon $H$ (resp. effective horizon $\frac{1}{1-\gamma}$), and suppose the distribution shift of data is reflected by some single-policy clipped concentrability coefficient $C^{\star}_{\text{clipped}}$. We prove that model-based offline RL yields $\varepsilon$-accura cy with a sample complexity of \[ \begin{cases} \frac{H^{4}SC_{\text{clipped}}^{\star}}{\varepsilon^{2}} & (\text{finite-horizon MDPs}) \frac{SC_{\text{clipped}}^{\star}}{(1-\gamma)^{3}\varepsilon^{2}} & (\text{infinite-horizon MDPs}) \end{cases} \] up to log factor, which is minimax optimal for the entire $\varepsilon$-range. Our algorithms are "pessimistic" variants of value iteration with Bernstein-style penalties, and do not require sophisticated variance reduction.
翻訳日:2022-04-12 16:02:30 公開日:2022-04-11
# リカレントニューラルネットワークにおけるハイパーパラメータ選択のためのリアプノフ誘導埋め込み

Lyapunov-Guided Embedding for Hyperparameter Selection in Recurrent Neural Networks ( http://arxiv.org/abs/2204.04876v1 )

ライセンス: Link先を確認
Ryan Vogt, Yang Zheng and Eli Shlizerman(参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)は、シーケンスと多変量時系列データのためのユビキタスコンピューティングシステムである。 RNNの頑健なアーキテクチャがいくつか知られているが、RNNの初期化やアーキテクチャ、その他のハイパーパラメータを与えられたタスクに対して正確に関連付ける方法は不明である。 本研究では,非線形力学系に特化して設計された手法であるリアプノフスペクトル解析を用いて,RNNを力学系として扱うことを提案する。 既存のリアプノフスペクトル解析を超越したRNN機能を実現するために,オートエンコーダと潜在表現の埋め込み(AeLLE)を用いて,リアプノフスペクトルから関連する特徴を推定することを提案する。 各種RNNアーキテクチャの研究により,AeLLEはRNNリアプノフスペクトルと精度の相関が得られた。 さらに、AeLLEが学習した潜在表現は、同一タスクからの新規入力に一般化可能であり、RNNトレーニングの初期段階に形成される。 後者の特性は、トレーニングが完了するとRNNが収束する精度の予測を可能にする。 我々は、リアプノフスペクトルによるRNNの表現とAeLLEを併用し、RNNのハイパーパラメータ選択を支援し、RNNアーキテクチャの変種を整理・解釈するための新しい手法を提供すると結論付けた。

Recurrent Neural Networks (RNN) are ubiquitous computing systems for sequences and multivariate time series data. While several robust architectures of RNN are known, it is unclear how to relate RNN initialization, architecture, and other hyperparameters with accuracy for a given task. In this work, we propose to treat RNN as dynamical systems and to correlate hyperparameters with accuracy through Lyapunov spectral analysis, a methodology specifically designed for nonlinear dynamical systems. To address the fact that RNN features go beyond the existing Lyapunov spectral analysis, we propose to infer relevant features from the Lyapunov spectrum with an Autoencoder and an embedding of its latent representation (AeLLE). Our studies of various RNN architectures show that AeLLE successfully correlates RNN Lyapunov spectrum with accuracy. Furthermore, the latent representation learned by AeLLE is generalizable to novel inputs from the same task and is formed early in the process of RNN training. The latter property allows for the prediction of the accuracy to which RNN would converge when training is complete. We conclude that representation of RNN through Lyapunov spectrum along with AeLLE, and assists with hyperparameter selection of RNN, provides a novel method for organization and interpretation of variants of RNN architectures.
翻訳日:2022-04-12 15:58:53 公開日:2022-04-11
# 画素からの深部強化学習のための視覚トランスフォーマー法の評価

Evaluating Vision Transformer Methods for Deep Reinforcement Learning from Pixels ( http://arxiv.org/abs/2204.04905v1 )

ライセンス: Link先を確認
Tianxin Tao, Daniele Reda, Michiel van de Panne(参考訳) vision transformers (vit) はコンピュータビジョンにおけるトランスフォーマーアーキテクチャの重要な可能性を実証している。 イメージベースのディープ強化学習は、標準畳み込みニューラルネットワーク(CNN)アーキテクチャと比較して、ViTアーキテクチャのメリットもどの程度あるのか? この質問に答えるために,画像ベース強化学習(rl)制御タスクのためのvitトレーニング手法を評価し,これらの結果を先行畳み込みネットワークアーキテクチャ法radと比較する。 vitエンコーダのトレーニングには,最近発表された補助タスクとして扱われる自己教師付き損失と,追加の損失項を持たないベースラインについて検討する。 RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。 ViT法では,3種類の補助的タスクが,平易なViTトレーニングよりも有益であると考えられる。 さらに、ViTマスキングに基づくタスクは、ViTのコントラスト学習を大きく上回っている。

Vision Transformers (ViT) have recently demonstrated the significant potential of transformer architectures for computer vision. To what extent can image-based deep reinforcement learning also benefit from ViT architectures, as compared to standard convolutional neural network (CNN) architectures? To answer this question, we evaluate ViT training methods for image-based reinforcement learning (RL) control tasks and compare these results to a leading convolutional-networ k architecture method, RAD. For training the ViT encoder, we consider several recently-proposed self-supervised losses that are treated as auxiliary tasks, as well as a baseline with no additional loss terms. We find that the CNN architectures trained using RAD still generally provide superior performance. For the ViT methods, all three types of auxiliary tasks that we consider provide a benefit over plain ViT training. Furthermore, ViT masking-based tasks are found to significantly outperform ViT contrastive-learning .
翻訳日:2022-04-12 15:58:04 公開日:2022-04-11
# 逆学習を用いた虚血性脳卒中病変の分離

Ischemic Stroke Lesion Segmentation Using Adversarial Learning ( http://arxiv.org/abs/2204.04993v1 )

ライセンス: Link先を確認
Mobarakol Islam and N Rajiv Vaidyanathan and V Jeya Maria Jose and Hongliang Ren(参考訳) 脳卒中は、脳に血液を供給する詰まった血管の閉塞によって起こる。 脳梗塞の分節化は診断,予後評価,治療計画の改善に不可欠である。 本研究では,虚血性病変のセグメンテーションに対する逆学習を用いたセグメンテーションモデルを提案する。 分割ベースラインネットワークとして,また識別ネットワークとして完全接続ネットワーク(FCN)として,スキップ接続とドロップアウトを備えたU-Netを採用する。 ディスクリミネータネットワークは5つの畳み込み層からなり、次いでリークしたReLUとアップサンプリング層からなり、出力を入力マップのサイズに再スケールする。 対向ネットワークとともにセグメンテーションネットワークを訓練することで、グラウンドトゥルースとセグメンタによって生成されたセグメンテーションマップの高次不整合を検出し、補正することができる。 ISLES 2018 (Ischemic Stroke Lesion Segmentation) におけるCT, DPWI, CBFの3つのモダリティ(CT, DPWI, CBF)を虚血性病変セグメンテーションに応用した。 我々のモデルは、トレーニングのクロスバリデーションで42.10%、テストデータで39%のダイス精度を達成した。

Ischemic stroke occurs through a blockage of clogged blood vessels supplying blood to the brain. Segmentation of the stroke lesion is vital to improve diagnosis, outcome assessment and treatment planning. In this work, we propose a segmentation model with adversarial learning for ischemic lesion segmentation. We adopt U-Net with skip connection and dropout as segmentation baseline network and a fully connected network (FCN) as discriminator network. Discriminator network consists of 5 convolution layers followed by leaky-ReLU and an upsampling layer to rescale the output to the size of the input map. Training a segmentation network along with an adversarial network can detect and correct higher order inconsistencies between the segmentation maps produced by ground-truth and the Segmentor. We exploit three modalities (CT, DPWI, CBF) of acute computed tomography (CT) perfusion data provided in ISLES 2018 (Ischemic Stroke Lesion Segmentation) for ischemic lesion segmentation. Our model has achieved dice accuracy of 42.10% with the cross-validation of training and 39% with the testing data.
翻訳日:2022-04-12 15:57:51 公開日:2022-04-11
# セグメンテーション一貫性確率的病変数

Segmentation-Consist ent Probabilistic Lesion Counting ( http://arxiv.org/abs/2204.05276v1 )

ライセンス: Link先を確認
Julien Schroeter, Chelsea Myers-Colet, Douglas L Arnold, Tal Arbel(参考訳) 病変数は、疾患の重症度、患者の予後、治療効果の重要な指標であるが、医療画像の課題として数えられることは、しばしばセグメンテーションを支持するために見過ごされる。 本研究は,病変の分節予測と病変数確率分布を一貫した方法でマッピングする,新しい連続的微分可能関数を提案する。 ボクセルクラスタリング,病変レベルのボクセル確率アグリゲーション,ポアソン二項計数からなるエンドツーエンドアプローチは非パラメトリックである。 Gadolinium-enhancing lesion counting の実験により,本手法は有意な不確実性情報を捕捉する精度および校正度の高いカウント分布を出力することを示した。 また,本モデルは病変分割のマルチタスク学習に適しており,低データレシエーションでは効率的であり,敵攻撃に対して堅牢であることも明らかにした。

Lesion counts are important indicators of disease severity, patient prognosis, and treatment efficacy, yet counting as a task in medical imaging is often overlooked in favor of segmentation. This work introduces a novel continuously differentiable function that maps lesion segmentation predictions to lesion count probability distributions in a consistent manner. The proposed end-to-end approach--which consists of voxel clustering, lesion-level voxel probability aggregation, and Poisson-binomial counting--is non-parametric and thus offers a robust and consistent way to augment lesion segmentation models with post hoc counting capabilities. Experiments on Gadolinium-enhancing lesion counting demonstrate that our method outputs accurate and well-calibrated count distributions that capture meaningful uncertainty information. They also reveal that our model is suitable for multi-task learning of lesion segmentation, is efficient in low data regimes, and is robust to adversarial attacks.
翻訳日:2022-04-12 15:56:08 公開日:2022-04-11
# hfl at semeval-2022 task 8: a languages-inspired regression model with data augmentation for multilingual news similarity

HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with Data Augmentation for Multilingual News Similarity ( http://arxiv.org/abs/2204.04844v1 )

ライセンス: Link先を確認
Zihang Xu, Ziqing Yang, Yiming Cui, Zhigang Chen(参考訳) 本稿では,SemEval-2022 Task 8: Multilingual News Article similarityについて述べる。 いくつかのタスク固有の戦略で訓練された言語モデルを提案する。 私たちのシステムの主な技術は 1)データ拡張 2)多ラベル損失 3)適応型rドロップ 4) ヘッドテールの組み合わせによるサンプル復元。 また,2-towerアーキテクチャなどの負の手法について,簡単な解析を行う。 本システムは,ピアソンの相関係数0.818を公式評価セットで達成しつつ,リーダボードで1位にランク付けした。

This paper describes our system designed for SemEval-2022 Task 8: Multilingual News Article Similarity. We proposed a linguistics-inspired model trained with a few task-specific strategies. The main techniques of our system are: 1) data augmentation, 2) multi-label loss, 3) adapted R-Drop, 4) samples reconstruction with the head-tail combination. We also present a brief analysis of some negative methods like two-tower architecture. Our system ranked 1st on the leaderboard while achieving a Pearson's Correlation Coefficient of 0.818 on the official evaluation set.
翻訳日:2022-04-12 15:49:10 公開日:2022-04-11
# ツイートの感情ダイナミクス:米国とカナダのツイートにおける感情語の使用

Tweet Emotion Dynamics: Emotion Word Usage in Tweets from US and Canada ( http://arxiv.org/abs/2204.04862v1 )

ライセンス: Link先を確認
Krishnapriya Vishnubhotla and Saif M. Mohammad(参考訳) 過去10年間にTwitterは、社会的、政治的、健康に関する議論でもっとも影響力のあるフォーラムの1つとして現れてきた。 本稿では、2015年から2021年にかけて、米国とカナダ(TUSC)から投稿された4500万件以上のジオロケーションツイートの大規模なデータセットについて紹介する。 また、時間とともにツイートに関連する感情のパターンをキャプチャする、Tweet Emotion Dynamics (TED)も導入しています。 2019年(パンデミック前)、2020年(パンデミック前)、そして2021年(パンデミック2年目)、そして個々のツイート者の間で、感情に関連した言葉の使用を探求するために、tedとtuscを使っています。 カナダのツイートは、米国のツイートよりも価値が高く、覚醒度が低く、支配的な傾向があります。 さらに、新型コロナウイルス(COVID-19)のパンデミックが、隣接する年数と比較して、2020年に投稿されたツイートの感情的なサインに顕著な影響を与えていることを示す。 最後に、170,000ツイートのTEDのメトリクスを決定し、TEDメトリクスの特徴を集約レベルでベンチマークする。 TUSCとTEDのメトリクスは、私たちが言語を使って自分自身を表現し、説得し、コミュニケーションし、影響力を与える方法について、特に公衆衛生、情緒科学、社会科学、心理学における有望な応用について、幅広い研究を可能にする。

Over the last decade, Twitter has emerged as one of the most influential forums for social, political, and health discourse. In this paper, we introduce a massive dataset of more than 45 million geo-located tweets posted between 2015 and 2021 from US and Canada (TUSC), especially curated for natural language analysis. We also introduce Tweet Emotion Dynamics (TED) -- metrics to capture patterns of emotions associated with tweets over time. We use TED and TUSC to explore the use of emotion-associated words across US and Canada; across 2019 (pre-pandemic), 2020 (the year the pandemic hit), and 2021 (the second year of the pandemic); and across individual tweeters. We show that Canadian tweets tend to have higher valence, lower arousal, and higher dominance than the US tweets. Further, we show that the COVID-19 pandemic had a marked impact on the emotional signature of tweets posted in 2020, when compared to the adjoining years. Finally, we determine metrics of TED for 170,000 tweeters to benchmark characteristics of TED metrics at an aggregate level. TUSC and the metrics for TED will enable a wide variety of research on studying how we use language to express ourselves, persuade, communicate, and influence, with particularly promising applications in public health, affective science, social science, and psychology.
翻訳日:2022-04-12 15:49:00 公開日:2022-04-11
# ConSLT:手話翻訳のためのトークンレベルのコントラストフレームワーク

ConSLT: A Token-level Contrastive Framework for Sign Language Translation ( http://arxiv.org/abs/2204.04916v1 )

ライセンス: Link先を確認
Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi(参考訳) 手話翻訳(SLT)は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める重要な技術である。 SLTタスクは、一般に公開されている並列データの不足のため、本質的に低リソースの問題である。 この目的のために、コントラスト学習に基づくニューラルネットワーク翻訳手法の成功に触発されて、新しいトークンレベル \textbf{Con}trastive learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslationを提案する。 より良い文表現を得ることを目標とする従来の対照的な学習ベースワークとは異なり、ConSLTは異なる文からトークンを分割することで効果的なトークン表現を学習することを目指している。 具体的には,二段階slt法をモデルとした。 まず、再登録段階では、最先端の連続手話認識モデルを用いて手話フレームからの光沢を認識する。 そして、翻訳段階では、コントラスト学習を導入しながら、トランスフォーマフレームワークを採用する。 具体的には、各符号の光沢をトランスフォーマーモデルに2回渡し、各トークンの2つの異なる隠れレイヤ表現を「ポジティブな例」として取得し、各トークンの語彙から現在文にないkトークンを「ネガティブな例」としてランダムにサンプリングする。 実験の結果、ConSLTはPHOENIX14Tデータセット上で新しい最先端のパフォーマンスを実現し、+1.48BLEUが改善された。

Sign language translation (SLT) is an important technology that can bridge the communication gap between the deaf and the hearing people. SLT task is essentially a low-resource problem due to the scarcity of publicly available parallel data. To this end, inspired by the success of neural machine translation methods based on contrastive learning, we propose ConSLT, a novel token-level \textbf{Con}trastive learning framework for \textbf{S}ign \textbf{L}anguage \textbf{T}ranslation. Unlike previous contrastive learning based works whose goal is to obtain better sentence representation, ConSLT aims to learn effective token representation by pushing apart tokens from different sentences. Concretely, our model follows the two-stage SLT method. First, in the recoginition stage, we use a state-of-the-art continuous sign language recognition model to recognize glosses from sign frames. Then, in the translation stage, we adopt the Transformer framework while introducing contrastive learning. Specifically, we pass each sign glosses to the Transformer model twice to obtain two different hidden layer representations for each token as "positive examples" and randomly sample K tokens that are not in the current sentence from the vocabulary as "negative examples" for each token. Experimental results demonstrate that ConSLT achieves new state-of-the-art performance on PHOENIX14T dataset, with +1.48 BLEU improvements.
翻訳日:2022-04-12 15:48:37 公開日:2022-04-11
# mgimn: 少数テキスト分類のための多粒度対話型マッチングネットワーク

MGIMN: Multi-Grained Interactive Matching Network for Few-shot Text Classification ( http://arxiv.org/abs/2204.04952v1 )

ライセンス: Link先を確認
Jianhai Zhang, Mieradilijiang Maimaiti, Xing Gao, Yuanhang Zheng, and Ji Zhang(参考訳) テキスト分類は、クラスごとにラベル付きテキストインスタンスがほとんどない、目に見えないクラスに一般化するのに苦労する。 このような少数ショット学習(fsl)設定では、メトリックベースのメタ学習アプローチが有望な結果を示している。 従来の研究は主に各クラスのプロトタイプ表現を導出することを目的としていた。 しかし、各クラスに対するすべての意味を表現するコンパクトな表現を構築することが困難で不必要であることは無視される。 また、クエリと少数のテキスト分類のサポートセット間の依存関係を捉えることの重要性も無視している。 これらの問題に対処するために,インスタンス間比較とアグリゲーションを行い,プロトタイプ学習に代えてクラス間マッチングベクトルを生成するメタラーニング方式mgimnを提案する。 インスタンス間比較の鍵は、クラス固有のコンテキストとエピソード固有のコンテキスト内の対話的マッチングである。 大規模な実験により,提案手法は標準FSLと一般化FSL設定の両方の下で,既存の最先端手法よりも大幅に優れていた。

Text classification struggles to generalize to unseen classes with very few labeled text instances per class. In such a few-shot learning (FSL) setting, metric-based meta-learning approaches have shown promising results. Previous studies mainly aim to derive a prototype representation for each class. However, they neglect that it is challenging-yet-unne cessary to construct a compact representation which expresses the entire meaning for each class. They also ignore the importance to capture the inter-dependency between query and the support set for few-shot text classification. To deal with these issues, we propose a meta-learning based method MGIMN which performs instance-wise comparison followed by aggregation to generate class-wise matching vectors instead of prototype learning. The key of instance-wise comparison is the interactive matching within the class-specific context and episode-specific context. Extensive experiments demonstrate that the proposed method significantly outperforms the existing state-of-the-art approaches, under both the standard FSL and generalized FSL settings.
翻訳日:2022-04-12 15:46:54 公開日:2022-04-11
# 低リソースエンティティ認識のための事前学習エンコーダの比較検討

A Comparative Study of Pre-trained Encoders for Low-Resource Named Entity Recognition ( http://arxiv.org/abs/2204.04980v1 )

ライセンス: Link先を確認
Yuxuan Chen and Jonas Mikkelsen and Arne Binder and Christoph Alt and Leonhard Hennig(参考訳) 事前学習された言語モデル(plm)は、タスク固有のドメイン外データの事前トレーニングやドメイン内データの微調整を継続するときに、npoアプローチの効果的なコンポーネントである。 しかし、そのようなデータが利用できない低リソースのシナリオにおけるパフォーマンスは、依然として未解決の疑問である。 我々は、エンコーダ評価フレームワークを導入し、低リソースNERタスクにおける最先端の事前学習表現の性能を体系的に比較する。 我々は、様々な戦略、モデルアーキテクチャ、中間タスクの微調整、コントラスト学習で事前訓練された幅広いエンコーダを分析する。 英語とドイツ語の10のベンチマークNERデータセットに対する実験結果から,エンコーダの性能は著しく異なっており,特定の低リソースシナリオに対するエンコーダの選択を慎重に評価する必要があることが示唆された。

Pre-trained language models (PLM) are effective components of few-shot named entity recognition (NER) approaches when augmented with continued pre-training on task-specific out-of-domain data or fine-tuning on in-domain data. However, their performance in low-resource scenarios, where such data is not available, remains an open question. We introduce an encoder evaluation framework, and use it to systematically compare the performance of state-of-the-art pre-trained representations on the task of low-resource NER. We analyze a wide range of encoders pre-trained with different strategies, model architectures, intermediate-task fine-tuning, and contrastive learning. Our experimental results across ten benchmark NER datasets in English and German show that encoder performance varies significantly, suggesting that the choice of encoder for a specific low-resource scenario needs to be carefully evaluated.
翻訳日:2022-04-12 15:46:39 公開日:2022-04-11
# 言語型タイポロジーを用いた多言語語彙の強化--語彙の接尾辞の場合

Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of Lexical Gaps in Kinship ( http://arxiv.org/abs/2204.05049v1 )

ライセンス: Link先を確認
Temuulen Khishigsuren, G\'abor Bella, Khuyagbaatar Batsuren, Abed Alhakim Freihat, Nandu Chandran Nair, Amarsanaa Ganbold, Hadi Khalilia, Yamini Chandrashekar, Fausto Giunchiglia(参考訳) 本稿では,語彙型学の分野からの知識をもとに,言語多様性に関連する内容で語彙資源を充実させる手法について述べる。 語彙的ギャップの概念と言語固有の単語を通して多様性の現象を捉え、大規模に半自動的にギャップを推測する体系的手法を用いる。 まず,世界各国で多様であることが知られている血縁関係用語の領域について,198のドメイン概念,1,911の単語,37,370のギャップからなる語彙・意味資源を公表した。 我々は,機械翻訳システム評価のための下流アプリケーションを通じて,多種多様な言語間NLPタスクの改善のために,我々のようなリソースの利用の可能性を見出した。

This paper describes a method to enrich lexical resources with content relating to linguistic diversity, based on knowledge from the field of lexical typology. We capture the phenomenon of diversity through the notions of lexical gap and language-specific word and use a systematic method to infer gaps semi-automatically on a large scale. As a first result obtained for the domain of kinship terminology, known to be very diverse throughout the world, we publish a lexico-semantic resource consisting of 198 domain concepts, 1,911 words, and 37,370 gaps covering 699 languages. We see potential in the use of resources such as ours for the improvement of a variety of cross-lingual NLP tasks, which we demonstrate through a downstream application for the evaluation of machine translation systems.
翻訳日:2022-04-12 15:46:23 公開日:2022-04-11
# 半教師付き学習による覚醒予測のためのブロックセグメンテーションベクトル

Block-Segmentation Vectors for Arousal Prediction using Semi-supervised Learning ( http://arxiv.org/abs/2204.05096v1 )

ライセンス: Link先を確認
Yuki Odaka, Ken Kaneiwa(参考訳) コンピュータアプリケーションにおける感情表現を扱うため、ラッセルの周辺モデルは原子価や覚醒に応じて感情を表現するのに有用である。 SentiWordNetでは、価度は半教師付き学習を用いて多数のシンセセット(WordNetの同義語群)に自動的に割り当てられる。 しかし、刺激レベルを割り当てると、SentiWordNetに提案されている既存の手法は感情予測の精度を低下させる。 本稿では,半教師付き学習を用いて,少数のラベル付き単語から多数のシンセットの覚醒レベルを予測するブロック分割ベクトルを提案する。 文のコーパスにおける発声語と非発声語の分布をヴァレンス語の分布と比較して解析する。 発声語と非発声語が混ざり合わさった場合には発声レベル予測が失敗するという問題に対処する。 このような発声語と非発声語の特徴を捉えるために、コーパスを文の流れのブロックに分割するブロックidにより、逆インデックスに基づく単語ベクトルを生成する。 評価実験では,ブロックセグメンテーションベクトルを用いた覚醒予測の結果がSentiWordNetの従来の手法よりも優れていることを示す。

To handle emotional expressions in computer applications, Russell's circum- plex model has been useful for representing emotions according to valence and arousal. In SentiWordNet, the level of valence is automatically assigned to a large number of synsets (groups of synonyms in WordNet) using semi-supervised learning. However, when assigning the level of arousal, the existing method proposed for SentiWordNet reduces the accuracy of sentiment prediction. In this paper, we propose a block-segmentation vector for predicting the arousal levels of many synsets from a small number of labeled words using semi-supervised learning. We analyze the distribution of arousal and non-arousal words in a corpus of sentences by comparing it with the distribution of valence words. We address the problem that arousal level prediction fails when arousal and non-arousal words are mixed together in some sentences. To capture the features of such arousal and non-arousal words, we generate word vectors based on inverted indexes by block IDs, where the corpus is divided into blocks in the flow of sentences. In the evaluation experiment, we show that the results of arousal prediction with the block-segmentation vectors outperform the results of the previous method in SentiWordNet.
翻訳日:2022-04-12 15:46:07 公開日:2022-04-11
# 知識ベースによる事前学習と同期による生物医学的エンティティリンク

Generative Biomedical Entity Linking via Knowledge Base-Guided Pre-training and Synonyms-Aware Fine-tuning ( http://arxiv.org/abs/2204.05164v1 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Sheng Yu(参考訳) 生物医学的自然言語理解の核心に存在しており、微細で多様な概念名によって、ELタスクは依然として困難である。 生成手法は、高価な事前トレーニングを必要としながら、メモリ使用量が少なく、一般的なドメインELにおいて顕著な性能を達成する。 これまでのバイオメディカルEL法は、生成法に注入するのは簡単ではない知識ベース(KB)のシノニムを利用する。 本研究では,生物医学的elをモデル化し,同義語知識を注入する方法を提案する。 そこで本研究では,同義語と定義を持つ合成サンプルをkbから構築し,概念名の復元をモデルに要求する。 また、学習のための概念名を選択するためのシノニム対応の微調整を提案し、推論のためにデコーダプロンプトとマルチシンノニム制約プレフィックスツリーを提案する。 本手法は,前訓練および微調整戦略の有効性を示す候補選択を行わず,いくつかの生物医学的elタスクにおいて最新の結果を得る。

Entities lie in the heart of biomedical natural language understanding, and the biomedical entity linking (EL) task remains challenging due to the fine-grained and diversiform concept names. Generative methods achieve remarkable performances in general domain EL with less memory usage while requiring expensive pre-training. Previous biomedical EL methods leverage synonyms from knowledge bases (KB) which is not trivial to inject into a generative method. In this work, we use a generative approach to model biomedical EL and propose to inject synonyms knowledge in it. We propose KB-guided pre-training by constructing synthetic samples with synonyms and definitions from KB and require the model to recover concept names. We also propose synonyms-aware fine-tuning to select concept names for training, and propose decoder prompt and multi-synonyms constrained prefix tree for inference. Our method achieves state-of-the-art results on several biomedical EL tasks without candidate selection which displays the effectiveness of proposed pre-training and fine-tuning strategies.
翻訳日:2022-04-12 15:45:48 公開日:2022-04-11
# プロンプトに基づく学習パラダイムの普遍的脆弱性探索

Exploring the Universal Vulnerability of Prompt-based Learning Paradigm ( http://arxiv.org/abs/2204.05239v1 )

ライセンス: Link先を確認
Lei Xu, Yangyi Chen, Ganqu Cui, Hongcheng Gao, Zhiyuan Liu(参考訳) Promptベースの学習パラダイムは、事前トレーニングと微調整のギャップを埋め、数ショット設定で効果的に機能する。 しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承する。 本稿では,バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを探索することにより,この普遍的脆弱性を探索する。 いずれのシナリオにおいても,プロンプトベースの学習パラダイムの普遍的な脆弱性を反映して,任意のダウンストリームタスクで微調整されたプロンプトベースのモデルのパフォーマンスを,トリガーが完全に制御したり,大幅に低下させたりすることが可能であることを実証する。 さらなる実験により、敵対的トリガーは言語モデル間で良好な伝達性を持つことが示された。 また,従来型の微調整モデルは,事前学習された言語モデルから構築された逆トリガに対して脆弱ではないことがわかった。 我々は攻撃方法を緩和する潜在的な解決策を提案する。 コードとデータはhttps://github.com/l eix28/prompt-univers al-vulnerabilityで公開されている。

Prompt-based learning paradigm bridges the gap between pre-training and fine-tuning, and works effectively under the few-shot setting. However, we find that this learning paradigm inherits the vulnerability from the pre-training stage, where model predictions can be misled by inserting certain triggers into the text. In this paper, we explore this universal vulnerability by either injecting backdoor triggers or searching for adversarial triggers on pre-trained language models using only plain text. In both scenarios, we demonstrate that our triggers can totally control or severely decrease the performance of prompt-based models fine-tuned on arbitrary downstream tasks, reflecting the universal vulnerability of the prompt-based learning paradigm. Further experiments show that adversarial triggers have good transferability among language models. We also find conventional fine-tuning models are not vulnerable to adversarial triggers constructed from pre-trained language models. We conclude by proposing a potential solution to mitigate our attack methods. Code and data are publicly available at https://github.com/l eix28/prompt-univers al-vulnerability
翻訳日:2022-04-12 15:44:14 公開日:2022-04-11
# nasが木に出会う:ニューラルネットワークの効率的な検索アルゴリズム

When NAS Meets Trees: An Efficient Algorithm for Neural Architecture Search ( http://arxiv.org/abs/2204.04918v1 )

ライセンス: Link先を確認
Guocheng Qian, Xuanyang Zhang, Guohao Li, Chen Zhao, Yukang Chen, Xiangyu Zhang, Bernard Ghanem, Jian Sun(参考訳) neural architecture search(nas)における重要な課題は、巨大な検索空間において賢明に探索する方法を設計することだ。 我々は,少数のアーキテクチャのみを探索し,検索精度を向上し,探索効率を向上させる新しいNAS手法TNAS(NAS with Tree)を提案する。 TNASはアーキテクチャツリーとバイナリ演算ツリーを導入し、探索空間を分解し、探索サイズを大幅に削減する。 TNASは、高性能アーキテクチャを発見するために、提案した木で2段階のBreadth-First Searchを修正した。 TNASは、NAS-Bench-201の4つのGPU時間において、テスト精度94.37\%のCIFAR-10のグローバルな最適アーキテクチャを発見した。 平均テスト精度は94.35\%で、最先端を上回っている。 コードは: \url{https://github.com/g uochengqian/TNAS}で入手できる。

The key challenge in neural architecture search (NAS) is designing how to explore wisely in the huge search space. We propose a new NAS method called TNAS (NAS with trees), which improves search efficiency by exploring only a small number of architectures while also achieving a higher search accuracy. TNAS introduces an architecture tree and a binary operation tree, to factorize the search space and substantially reduce the exploration size. TNAS performs a modified bi-level Breadth-First Search in the proposed trees to discover a high-performance architecture. Impressively, TNAS finds the global optimal architecture on CIFAR-10 with test accuracy of 94.37\% in four GPU hours in NAS-Bench-201. The average test accuracy is 94.35\%, which outperforms the state-of-the-art. Code is available at: \url{https://github.com/g uochengqian/TNAS}.
翻訳日:2022-04-12 15:43:06 公開日:2022-04-11
# 価値に基づく実践的推論 - Modal Logic + Argumentation

Value-based Practical Reasoning: Modal Logic + Argumentation ( http://arxiv.org/abs/2204.04938v1 )

ライセンス: Link先を確認
Jieting Luo, Beishui Liao and Dov Gabbay(参考訳) 自律エージェントは、一連のアクションを実行することによって、タスクを完了したり、ユーザが割り当てる目標を達成することができる。 エージェントが従うことのできる複数の計画が存在し、各計画がそれぞれのアクションに沿って異なる価値を推進または分解する可能性があるため、エージェントはエージェント間の紛争を解決し、どの計画に従うべきかを評価することができるべきである。 本稿では,価値に基づく実践的推論と計画のための様相論理と議論を組み合わせた論理ベースのフレームワークを開発した。 モーダル論理は、エージェントの目標を達成するために、その局所的な価値促進や減退といった特性を持つ計画の表現と検証を行う技術として用いられる。 そこで我々は,エージェントが検証結果を用いて計画の支援や異議を唱える形で,自分の計画について推論できる議論に基づくアプローチを提案する。

Autonomous agents are supposed to be able to finish tasks or achieve goals that are assigned by their users through performing a sequence of actions. Since there might exist multiple plans that an agent can follow and each plan might promote or demote different values along each action, the agent should be able to resolve the conflicts between them and evaluate which plan he should follow. In this paper, we develop a logic-based framework that combines modal logic and argumentation for value-based practical reasoning with plans. Modal logic is used as a technique to represent and verify whether a plan with its local properties of value promotion or demotion can be followed to achieve an agent's goal. We then propose an argumentation-based approach that allows an agent to reason about his plans in the form of supporting or objecting to a plan using the verification results.
翻訳日:2022-04-12 15:42:53 公開日:2022-04-11
# (参考訳) ファウショット学習のためのGDC一般化分布校正 [全文訳有]

GDC- Generalized Distribution Calibration for Few-Shot Learning ( http://arxiv.org/abs/2204.05230v1 )

ライセンス: CC BY 4.0
Shakti Kumar, Hussain Zaidi(参考訳) 大規模なラベル付きデータセットを組み立てるのにかなりの時間と労力を要するため、機械学習においてショット学習は重要な問題である。 ほとんどの数発の学習アルゴリズムは、洗練されたモデルと損失関数の設計を必要とするか、解釈可能性を妨げるか、統計的手法を用いるが、異なるデータセットや特徴にまたがらない仮定を行う。 類似する大規模クラスから小規模サンプルクラスの分布を外挿する最近の研究を基礎として,全大規模クラスの重み付き確率変数として分類のための最小ショット分布を推定する一般化サンプリング法を提案する。 我々は、過剰パラメータ化特徴や小さなデータセットによる特異共分散に対するロバスト性を提供するために、共分散収縮の一形態を用いる。 トレーニングセットに類似した大きなクラスが存在しない場合であっても,サンプルポイントがほとんどショットクラスであることを示す。 提案手法は任意のオフ・ザ・シェルフ機能抽出器で動作し,MiniImagenet,CUB,St anford Dogsの既存データセットを5way-1shotタスクと5way-5shotタスクで3%から5%,クロスドメインタスクで1%向上させる。

Few shot learning is an important problem in machine learning as large labelled datasets take considerable time and effort to assemble. Most few-shot learning algorithms suffer from one of two limitations- they either require the design of sophisticated models and loss functions, thus hampering interpretability; or employ statistical techniques but make assumptions that may not hold across different datasets or features. Developing on recent work in extrapolating distributions of small sample classes from the most similar larger classes, we propose a Generalized sampling method that learns to estimate few-shot distributions for classification as weighted random variables of all large classes. We use a form of covariance shrinkage to provide robustness against singular covariances due to overparameterized features or small datasets. We show that our sampled points are close to few-shot classes even in cases when there are no similar large classes in the training set. Our method works with arbitrary off-the-shelf feature extractors and outperforms existing state-of-the-art on miniImagenet, CUB and Stanford Dogs datasets by 3% to 5% on 5way-1shot and 5way-5shot tasks and by 1% in challenging cross domain tasks.
翻訳日:2022-04-12 15:41:07 公開日:2022-04-11
# 弱教師付きセマンティックセグメンテーションと物体定位に対する逆操作属性

Anti-Adversarially Manipulated Attributions for Weakly Supervised Semantic Segmentation and Object Localization ( http://arxiv.org/abs/2204.04890v1 )

ライセンス: Link先を確認
Jungbeom Lee, Eunji Kim, Jisoo Mok, Sungroh Yoon(参考訳) クラスラベルからの正確なピクセルレベルのローカライゼーションは、弱い教師付きセマンティックセグメンテーションとオブジェクトローカライゼーションにおいて重要なプロセスである。 訓練された分類器からの帰属マップはピクセルレベルのローカライゼーションを提供するために広く使われているが、その焦点は対象オブジェクトの小さな識別領域に限定される傾向がある。 AdvCAMは、最終ソフトマックスまたはシグモイド層の前に分類器によって生成される分類スコアを増やすために操作される画像の属性マップである。 この操作は対逆的な方法で実現され、元の画像は対逆攻撃で使用されるものと反対方向に画素勾配に沿って摂動される。 このプロセスは非識別的だがクラス関連の特徴を高め、前の属性マップに不十分な貢献をし、その結果のAdvCAMは対象オブジェクトのより多くの領域を識別する。 さらに,対象対象物と無関係な領域の不正確な帰属を阻害し,対象物の小さな領域への帰属が過剰に集中する新たな正規化手順を導入する。 本手法は,PASCAL VOC 2012とMS COCO 2014の両方のデータセットを用いて,弱いセマンティックセマンティックセマンティックセマンティックセマンティクスの最先端性能を実現する。 弱教師付きオブジェクトローカライゼーションでは、CUB-200-2011およびImageNet-1Kデータセット上で、最先端の新たなパフォーマンスを実現する。

Obtaining accurate pixel-level localization from class labels is a crucial process in weakly supervised semantic segmentation and object localization. Attribution maps from a trained classifier are widely used to provide pixel-level localization, but their focus tends to be restricted to a small discriminative region of the target object. An AdvCAM is an attribution map of an image that is manipulated to increase the classification score produced by a classifier before the final softmax or sigmoid layer. This manipulation is realized in an anti-adversarial manner, so that the original image is perturbed along pixel gradients in directions opposite to those used in an adversarial attack. This process enhances non-discriminative yet class-relevant features, which make an insufficient contribution to previous attribution maps, so that the resulting AdvCAM identifies more regions of the target object. In addition, we introduce a new regularization procedure that inhibits the incorrect attribution of regions unrelated to the target object and the excessive concentration of attributions on a small region of the target object. Our method achieves a new state-of-the-art performance in weakly and semi-supervised semantic segmentation, on both the PASCAL VOC 2012 and MS COCO 2014 datasets. In weakly supervised object localization, it achieves a new state-of-the-art performance on the CUB-200-2011 and ImageNet-1K datasets.
翻訳日:2022-04-12 15:01:03 公開日:2022-04-11
# MIME:メモリ効率を考慮したマルチタスク推論に単一ニューラルネットワークを適用する

MIME: Adapting a Single Neural Network for Multi-task Inference with Memory-efficient Dynamic Pruning ( http://arxiv.org/abs/2204.05274v1 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Yeshwanth Venkatesha, Abhishek Moitra, and Priyadarshini Panda(参考訳) 近年、マルチタスク学習へのパラダイムシフトが見られる。 これは、マルチタスクシナリオにおける推論のためのメモリとエネルギー効率のソリューションを要求する。 我々はMIMEと呼ばれるアルゴリズムとハードウェアの協調設計手法を提案する。 MIMEは訓練された親タスクの重みパラメータを再利用し、複数の子タスクに対する推論のためのタスク固有のしきい値パラメータを学習する。 MIMEは、従来のマルチタスク推論と比較して、複数のタスクに対する神経ネットワークパラメータの高メモリ効率なDRAM記憶を実現する。 さらにmimeは入力依存性の動的ニューロンプラニングを生じさせ、シストリックアレイハードウェア上で高いスループットを持つエネルギー効率の推論を可能にする。 CIFAR10, CIFAR100, および Fashion-MNIST のベンチマーク・データセットを用いた実験により, MIME のメモリ効率は ~3.48倍, ~2.4-3.1 倍の省エネ性を示した。

Recent years have seen a paradigm shift towards multi-task learning. This calls for memory and energy-efficient solutions for inference in a multi-task scenario. We propose an algorithm-hardware co-design approach called MIME. MIME reuses the weight parameters of a trained parent task and learns task-specific threshold parameters for inference on multiple child tasks. We find that MIME results in highly memory-efficient DRAM storage of neural-network parameters for multiple tasks compared to conventional multi-task inference. In addition, MIME results in input-dependent dynamic neuronal pruning, thereby enabling energy-efficient inference with higher throughput on a systolic-array hardware. Our experiments with benchmark datasets (child tasks)- CIFAR10, CIFAR100, and Fashion-MNIST, show that MIME achieves ~3.48x memory-efficiency and ~2.4-3.1x energy-savings compared to conventional multi-task inference in Pipelined task mode.
翻訳日:2022-04-12 15:00:38 公開日:2022-04-11
# マルチスピーカ音声合成のためのきめ細かいノイズ制御

Fine-grained Noise Control for Multispeaker Speech Synthesis ( http://arxiv.org/abs/2204.05070v1 )

ライセンス: Link先を確認
Karolos Nikitaras, Georgios Vamvoukakis, Nikolaos Ellinas, Konstantinos Klapsas, Konstantinos Markopoulos, Spyros Raptis, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) text-to-speech (tts) モデルは、典型的には、コンテンツ、話者、韻律などの音声属性を不等角表現に分解する。最近の研究は、録音条件や背景雑音などの残留要因から主要音声要素、言語内容、韻律、音色を区別するために、音響条件を明示的にモデル化することを目的としている。 我々は,フレームレベルの雑音表現を学習するために,対向訓練,表現ボトルネック,発話からフレームへのモデリングを取り入れた。 同時に,完全階層型変分オートエンコーダ(fvae)による細粒度韻律モデリングを行い,さらに表現力の高い音声合成を実現する。

A text-to-speech (TTS) model typically factorizes speech attributes such as content, speaker and prosody into disentangled representations.Rece nt works aim to additionally model the acoustic conditions explicitly, in order to disentangle the primary speech factors, i.e. linguistic content, prosody and timbre from any residual factors, such as recording conditions and background noise.This paper proposes unsupervised, interpretable and fine-grained noise and prosody modeling. We incorporate adversarial training, representation bottleneck and utterance-to-frame modeling in order to learn frame-level noise representations. To the same end, we perform fine-grained prosody modeling via a Fully Hierarchical Variational AutoEncoder (FVAE) which additionally results in more expressive speech synthesis.
翻訳日:2022-04-12 14:58:58 公開日:2022-04-11
# 科学・技術学術会議のナレッジグラフと正確なポートレート構築

Knowledge Graph and Accurate Portrait Construction of Scientific and Technological Academic Conferences ( http://arxiv.org/abs/2204.04888v1 )

ライセンス: Link先を確認
Runyu Yu and Zhe Xue and Ang Li(参考訳) 近年、科学技術の継続的な発展に伴い、科学研究の成果の交換プラットフォームや学術研究の媒体として、科学研究の成果が日々増えており、科学技術学術会議はますます豊富になっている。 科学・技術学術会議の開催は、多くの学術論文、研究者、研究機関、その他のデータをもたらし、膨大なデータが研究者にとって貴重な情報を得るのに困難をもたらす。 そのため、深層学習技術を用いて科学・技術学術会議のデータ中核となる情報をマイニングし、科学・技術学術会議の知識グラフと正確な肖像画システムを実現することにより、研究者がより早く科学研究情報を得ることができることが重要である。

In recent years, with the continuous progress of science and technology, the number of scientific research achievements is increasing day by day, as the exchange platform and medium of scientific research achievements, the scientific and technological academic conferences have become more and more abundant. The convening of scientific and technological academic conferences will bring large number of academic papers, researchers, research institutions and other data, and the massive data brings difficulties for researchers to obtain valuable information. Therefore, it is of great significance to use deep learning technology to mine the core information in the data of scientific and technological academic conferences, and to realize a knowledge graph and accurate portrait system of scientific and technological academic conferences, so that researchers can obtain scientific research information faster.
翻訳日:2022-04-12 14:55:44 公開日:2022-04-11
# AIモデルと医療専門家のコミュニケーションギャップを評価する--AIによる臨床的意思決定における説明可能性、有用性、信頼

Assessing the communication gap between AI models and healthcare professionals: explainability, utility and trust in AI-driven clinical decision-making ( http://arxiv.org/abs/2204.05030v1 )

ライセンス: Link先を確認
Oskar Wysocki, Jessica Katharine Davies, Markel Vigo, Anne Caroline Armstrong, D\'onal Landers, Rebecca Lee and Andr\'e Freitas(参考訳) 本稿では,臨床診断支援のための機械学習モデル(ML)の実用的評価フレームワークを提案する。 本研究は, 臨床的文脈に実用的に組み込まれたml説明モデルにおいて, よりニュアンス的な役割を明らかにした。 安全と信頼のメカニズムとしての説明に対する医療専門家(HCP)の一般的な肯定的な態度にもかかわらず、かなりの参加者に対して、確証バイアス、過度なモデルのアクセント付け、モデルとの相互作用への取り組みの増加に負の効果があった。 また、主要な目的関数の1つと矛盾し、標準説明モデルはモデルの限界に対する批判的な理解をサポートする能力が限られていた。 しかし, 臨床領域における説明の役割を再考する新たな有意な効果として, 自動化バイアスの低減, 曖昧な臨床症例(HCPが決定に不確実な場合)への対処, 新規ドメイン知識獲得における経験の浅いHCPの支援などが挙げられる。

This paper contributes with a pragmatic evaluation framework for explainable Machine Learning (ML) models for clinical decision support. The study revealed a more nuanced role for ML explanation models, when these are pragmatically embedded in the clinical context. Despite the general positive attitude of healthcare professionals (HCPs) towards explanations as a safety and trust mechanism, for a significant set of participants there were negative effects associated with confirmation bias, accentuating model over-reliance and increased effort to interact with the model. Also, contradicting one of its main intended functions, standard explanatory models showed limited ability to support a critical understanding of the limitations of the model. However, we found new significant positive effects which repositions the role of explanations within a clinical context: these include reduction of automation bias, addressing ambiguous clinical cases (cases where HCPs were not certain about their decision) and support of less experienced HCPs in the acquisition of new domain knowledge.
翻訳日:2022-04-12 14:55:31 公開日:2022-04-11
# 機械学習トレーニングのカーボンフットプリントが台地に、そして薄くなる

The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink ( http://arxiv.org/abs/2204.05149v1 )

ライセンス: Link先を確認
David Patterson, Joseph Gonzalez, Urs H\"olzle, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, and Jeff Dean(参考訳) 機械学習(ML)ワークロードの重要性は急速に高まっているが、カーボンフットプリントに対する懸念が高まっている。 4つのベストプラクティスは、mlトレーニングエネルギを最大100倍、co2を最大1000倍削減する。 ベストプラクティスに従うことで、MLエネルギーの使用全体(研究、開発、生産全体)は、過去3年間、Googleのトータルエネルギー使用の15%を安定的に維持した。 ML分野全体がベストプラクティスを採用するならば、トレーニングからの二酸化炭素排出量は減少するでしょう。 したがって、モデル品質以上の競争を促進するために、ml論文に明示的に排出を含むことを推奨する。 これらを省略した論文における排出量の推計は、100倍から100,000倍にずれているため、正確な会計の確保というメリットがある。 気候変動の重要性を考えると、最大の課題に取り組むためには、数字を正しく把握する必要がある。

Machine Learning (ML) workloads have rapidly grown in importance, but raised concerns about their carbon footprint. Four best practices can reduce ML training energy by up to 100x and CO2 emissions up to 1000x. By following best practices, overall ML energy use (across research, development, and production) held steady at <15% of Google's total energy use for the past three years. If the whole ML field were to adopt best practices, total carbon emissions from training would reduce. Hence, we recommend that ML papers include emissions explicitly to foster competition on more than just model quality. Estimates of emissions in papers that omitted them have been off 100x-100,000x, so publishing emissions has the added benefit of ensuring accurate accounting. Given the importance of climate change, we must get the numbers right to make certain that we work on its biggest challenges.
翻訳日:2022-04-12 14:55:11 公開日:2022-04-11
# AI倫理の'ベンチマーク'に関するメタ倫理的視点

Metaethical Perspectives on 'Benchmarking' AI Ethics ( http://arxiv.org/abs/2204.05151v1 )

ライセンス: Link先を確認
Travis LaCroix, Alexandra Sasha Luccioni(参考訳) ベンチマークは人工知能(AI)研究の技術的進歩を測定するための基盤として捉えられ、質問応答から顔認識まで様々なタスクのために開発されてきた。 AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。 本稿では,道徳哲学とメタ倫理学の研究に基づいて,このようなベンチマークを開発することは不可能であると論じる。 そのため、AIシステムが「倫理的」かどうかを評価するための代替メカニズムが必要である。 これは特に、応用産業ai研究の流行に照らして差し迫っている。 我々は、現在および将来のAIシステムのアクションを考えるとき、倫理よりも「価値」(および「価値アライメント」)について話す方が理にかなっていると論じる。 さらに強調するのは、価値があいまいに相対的であるため、価値に注目することは、価値が何であるか、その価値が誰であるかを明確に考慮させます。 倫理から価値へと重点を移すことは、研究者が堅牢に安全または有益なAIのために研究プログラムを前進させる方法を理解するための、いくつかの新しい方法を生み出します。 結論として、この分野全体に向けてのさまざまな方法を強調し、より価値に整合したAI研究へのさまざまなアプローチを提唱する。

Benchmarks are seen as the cornerstone for measuring technical progress in Artificial Intelligence (AI) research and have been developed for a variety of tasks ranging from question answering to facial recognition. An increasingly prominent research area in AI is ethics, which currently has no set of benchmarks nor commonly accepted way for measuring the 'ethicality' of an AI system. In this paper, drawing upon research in moral philosophy and metaethics, we argue that it is impossible to develop such a benchmark. As such, alternative mechanisms are necessary for evaluating whether an AI system is 'ethical'. This is especially pressing in light of the prevalence of applied, industrial AI research. We argue that it makes more sense to talk about 'values' (and 'value alignment') rather than 'ethics' when considering the possible actions of present and future AI systems. We further highlight that, because values are unambiguously relative, focusing on values forces us to consider explicitly what the values are and whose values they are. Shifting the emphasis from ethics to values therefore gives rise to several new ways of understanding how researchers might advance research programmes for robustly safe or beneficial AI. We conclude by highlighting a number of possible ways forward for the field as a whole, and we advocate for different approaches towards more value-aligned AI research.
翻訳日:2022-04-12 14:54:54 公開日:2022-04-11
# (参考訳) より効果的な機械翻訳評価を目指して [全文訳有]

Toward More Effective Human Evaluation for Machine Translation ( http://arxiv.org/abs/2204.05307v1 )

ライセンス: CC BY 4.0
Bel\'en Sald\'ias, George Foster, Markus Freitag, Qijun Tan(参考訳) 機械翻訳などのテキスト生成技術の改善は、正確な信号を保証するためにコストと時間を要する。 完全テストセットのスコアを正確に予測するために,アノテートしなければならないテキストセグメント数を削減し,コストを削減するための簡単な方法を検討する。 サンプリング手法を用いて, 文書メンバシップと自動メトリクスからの情報は, 純粋なランダムサンプリングベースラインと比較して, 推定精度の向上に役立つことを実証する。 我々は,階層化サンプリングと制御変動を利用して,平均絶対誤差の最大20%のゲインを達成する。 提案手法は,固定アノテーション予算による見積を改善でき,実装が容易であり,検討した手法と同様の構造を持つ任意の問題に適用できる。

Improvements in text generation technologies such as machine translation have necessitated more costly and time-consuming human evaluation procedures to ensure an accurate signal. We investigate a simple way to reduce cost by reducing the number of text segments that must be annotated in order to accurately predict a score for a complete test set. Using a sampling approach, we demonstrate that information from document membership and automatic metrics can help improve estimates compared to a pure random sampling baseline. We achieve gains of up to 20% in average absolute error by leveraging stratified sampling and control variates. Our techniques can improve estimates made from a fixed annotation budget, are easy to implement, and can be applied to any problem with structure similar to the one we study.
翻訳日:2022-04-12 14:52:19 公開日:2022-04-11
# 可視赤外人物再同定のための均質モダリティ学習と多粒度情報探索に向けて

Towards Homogeneous Modality Learning and Multi-Granularity Information Exploration for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2204.04842v1 )

ライセンス: Link先を確認
Haojie Liu, Daoxun Xia, Wei Jiang and Chao Xu(参考訳) Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。 異種画像に存在する大きなモダリティ不一致の影響を軽減するため, 従来手法では, GAN (generative adversarial network) を用いてモダリティ一致データの生成を試みた。 しかし、可視領域と赤外線領域の間の色の変化により、生成した偽のクロスモダリティサンプルは、合成されたシナリオとターゲットの実領域の間のモダリティギャップを埋めるために良い品質を得られず、それが準最適特徴表現に繋がる。 本稿では,gray-gray single-mode learning問題として可視赤外デュアルモード学習を再構成する統一暗黒線スペクトルである aligned grayscale modality (agm) を用いたクロスモダリティマッチング問題に対処する。 具体的には、均質な可視画像からgrasycale様相を生成する。 そこで我々は,赤外線画像から均一なグレースケール画像へ変換するスタイルトランスファーモデルを訓練した。 このようにして、画像空間においてモダリティの差は著しく減少する。 残余の外観差を低減するため,特徴レベルのアライメントを行うために,多粒度特徴抽出ネットワークを導入する。 グローバルな情報に頼るのではなく、より強力な特徴記述子を形成するために互いに補完する人物のRe-IDを支援するために、局所的な特徴(頭部)を活用することを提案する。 sysu-mm01 や regdb などのメインストリーム評価データセットで実施した総合的な実験により,本手法は art 手法に対するクロスモダリティ検索性能を著しく向上させることができることが示された。

Visible-infrared person re-identification (VI-ReID) is a challenging and essential task, which aims to retrieve a set of person images over visible and infrared camera views. In order to mitigate the impact of large modality discrepancy existing in heterogeneous images, previous methods attempt to apply generative adversarial network (GAN) to generate the modality-consisitent data. However, due to severe color variations between the visible domain and infrared domain, the generated fake cross-modality samples often fail to possess good qualities to fill the modality gap between synthesized scenarios and target real ones, which leads to sub-optimal feature representations. In this work, we address cross-modality matching problem with Aligned Grayscale Modality (AGM), an unified dark-line spectrum that reformulates visible-infrared dual-mode learning as a gray-gray single-mode learning problem. Specifically, we generate the grasycale modality from the homogeneous visible images. Then, we train a style tranfer model to transfer infrared images into homogeneous grayscale images. In this way, the modality discrepancy is significantly reduced in the image space. In order to reduce the remaining appearance discrepancy, we further introduce a multi-granularity feature extraction network to conduct feature-level alignment. Rather than relying on the global information, we propose to exploit local (head-shoulder) features to assist person Re-ID, which complements each other to form a stronger feature descriptor. Comprehensive experiments implemented on the mainstream evaluation datasets include SYSU-MM01 and RegDB indicate that our method can significantly boost cross-modality retrieval performance against the state of the art methods.
翻訳日:2022-04-12 14:35:42 公開日:2022-04-11
# 自然画像における共通性がGANを救い出す:GANをジェネリックおよびプライバシフリーな合成データで事前学習する

Commonality in Natural Images Rescues GANs: Pretraining GANs with Generic and Privacy-free Synthetic Data ( http://arxiv.org/abs/2204.04950v1 )

ライセンス: Link先を確認
Kyungjune Baek, Hyunjung Shim(参考訳) GANの転送学習は、低ショット状態下での世代性能の向上に成功している。 しかし、既存の研究では、単一のベンチマークデータセットを用いた事前学習モデルは、様々なターゲットデータセットに一般化されていないことが示されている。 さらに重要なのは、事前訓練されたモデルが著作権やプライバシーのリスクに弱いことだ。 そこで本研究では,自然画像の汎用的特徴に触発された,有効で偏りのないデータシンセサイザ,プリミティブpsを提案する。 具体的には 1)周波数等級スペクトルの一般統計 2)構造情報を表現するための基本形状(すなわち、基本形状による画像合成) 3) 前もって給与の存在。 我々のシンセサイザーは、自然画像の一般的な性質のみを考慮しているため、データセット上で事前訓練された単一モデルは、様々なターゲットデータセットに一貫して転送することができ、Fr'echet開始距離の観点から、従来の自然画像で事前訓練された手法よりも優れている。 大規模分析,アブレーション研究,評価の結果,データシンセサイザーの各成分が有効であることが示され,GANの伝達性に対する事前学習モデルの望ましい性質に関する知見が得られた。

Transfer learning for GANs successfully improves generation performance under low-shot regimes. However, existing studies show that the pretrained model using a single benchmark dataset is not generalized to various target datasets. More importantly, the pretrained model can be vulnerable to copyright or privacy risks as membership inference attack advances. To resolve both issues, we propose an effective and unbiased data synthesizer, namely Primitives-PS, inspired by the generic characteristics of natural images. Specifically, we utilize 1) the generic statistics on the frequency magnitude spectrum, 2) the elementary shape (i.e., image composition via elementary shapes) for representing the structure information, and 3) the existence of saliency as prior. Since our synthesizer only considers the generic properties of natural images, the single model pretrained on our dataset can be consistently transferred to various target datasets, and even outperforms the previous methods pretrained with the natural images in terms of Fr'echet inception distance. Extensive analysis, ablation study, and evaluations demonstrate that each component of our data synthesizer is effective, and provide insights on the desirable nature of the pretrained model for the transferability of GANs.
翻訳日:2022-04-12 14:35:09 公開日:2022-04-11
# 法的判断予測に関する調査:データセット,メトリクス,モデル,課題

A Survey on Legal Judgment Prediction: Datasets, Metrics, Models and Challenges ( http://arxiv.org/abs/2204.04859v1 )

ライセンス: Link先を確認
Junyun Cui, Xiaoyu Shen, Feiping Nie, Zheng Wang, Jinglong Wang and Yulong Chen(参考訳) 法定判断予測(LJP)は,事実記述に基づく判断結果の自動予測に自然言語処理(NLP)技術を適用している。 近年、NLP研究の大規模公開データセットと進歩により、LJPへの関心が高まっている。 マシンと人間のパフォーマンスの間に明らかなギャップがあるにもかかわらず、様々なベンチマークデータセットで印象的な結果が得られた。 In this paper, to address the current lack of comprehensive survey of existing LJP tasks, datasets, models and evaluations, (1) we analyze 31 LJP datasets in 6 languages, present their construction process and define a classification method of LJP with 3 different attributes; (2) we summarize 14 evaluation metrics under four categories for different outputs of LJP tasks; (3) we review 12 legal-domain pretrained models in 3 languages and highlight 3 major research directions for LJP; (4) we show the state-of-art results for 8 representative datasets from different court cases and discuss the open challenges. 本稿は,読者がLJPの現状を理解するのに役立つ,最新かつ包括的なレビューを提供する。 我々は,NLP研究者と法律専門家の双方に,この問題のさらなる共同作業を促すことを望んでいる。

Legal judgment prediction (LJP) applies Natural Language Processing (NLP) techniques to predict judgment results based on fact descriptions automatically. Recently, large-scale public datasets and advances in NLP research have led to increasing interest in LJP. Despite a clear gap between machine and human performance, impressive results have been achieved in various benchmark datasets. In this paper, to address the current lack of comprehensive survey of existing LJP tasks, datasets, models and evaluations, (1) we analyze 31 LJP datasets in 6 languages, present their construction process and define a classification method of LJP with 3 different attributes; (2) we summarize 14 evaluation metrics under four categories for different outputs of LJP tasks; (3) we review 12 legal-domain pretrained models in 3 languages and highlight 3 major research directions for LJP; (4) we show the state-of-art results for 8 representative datasets from different court cases and discuss the open challenges. This paper can provide up-to-date and comprehensive reviews to help readers understand the status of LJP. We hope to facilitate both NLP researchers and legal professionals for further joint efforts in this problem.
翻訳日:2022-04-12 14:33:07 公開日:2022-04-11
# 多言語感性分類器の評価

Assessment of Massively Multilingual Sentiment Classifiers ( http://arxiv.org/abs/2204.04937v1 )

ライセンス: Link先を確認
Krzysztof Rajda, {\L}ukasz Augustyniak, Piotr Gramacki, Marcin Gruza, Szymon Wo\'zniak, Tomasz Kajdanowicz(参考訳) モデルはSOTAの探索においてサイズと複雑さが増している。 しかし、もしこの2\%のパフォーマンス向上が、プロダクションユースケースで違いを起こさないとしたらどうでしょう? おそらく、より小さく、より高速なモデルによるメリットは、これらのわずかなパフォーマンス向上よりも大きいでしょう。 また、多言語タスクにおける言語間の等しく良いパフォーマンスは、単一言語でのSOTA結果よりも重要である。 我々は感情分析データセットの最大で統一された多言語集合を提案する。 これらは、27言語で11のモデルと80の高品質な感情データセット(342の生データセットのうち)を評価し、内部の注釈付きデータセットに結果を含む。 性能測定のための微調整トランスベースモデルを含む複数のセットアップを深く評価した。 言語カバレッジとデータセットサイズの両方において、不均衡に対処する多くの次元で結果を比較する。 最後に,このような膨大なデータセットとモデルを多言語の観点から扱うためのベストプラクティスを提案する。

Models are increasing in size and complexity in the hunt for SOTA. But what if those 2\% increase in performance does not make a difference in a production use case? Maybe benefits from a smaller, faster model outweigh those slight performance gains. Also, equally good performance across languages in multilingual tasks is more important than SOTA results on a single one. We present the biggest, unified, multilingual collection of sentiment analysis datasets. We use these to assess 11 models and 80 high-quality sentiment datasets (out of 342 raw datasets collected) in 27 languages and included results on the internally annotated datasets. We deeply evaluate multiple setups, including fine-tuning transformer-based models for measuring performance. We compare results in numerous dimensions addressing the imbalance in both languages coverage and dataset sizes. Finally, we present some best practices for working with such a massive collection of datasets and models from a multilingual perspective.
翻訳日:2022-04-12 14:32:52 公開日:2022-04-11
# 複数の自己教師あり学習文から相補的知識を選択的に捉えた下流課題の学習

Learning Downstream Task by Selectively Capturing Complementary Knowledge from Multiple Self-supervisedly Learning Pretexts ( http://arxiv.org/abs/2204.05248v1 )

ライセンス: Link先を確認
Quan Feng, Qingyuan Wu, Jiayu Yao, Songcan Chen(参考訳) 新たな非教師付き表現学習パラダイムとしての自己教師付き学習(SSL)は、一般的には2段階の学習パイプラインに従う。 1)自動注釈前文を用いた不変表現と判別表現の学習 2) 下流タスクを支援するために表現を転送する。 このような2つのステージは通常別々に実装され、学習された表現は下流のタスクに依存しない。 現在、ほとんどの作品は第一段階の探検に費やされている。 しかし、既に学習されている表現を用いてラベル付きデータで下流タスクを学習する方法についてはあまり研究されていない。 特に、下流タスクの様々な前文からの補完表現を選択的に活用することは重要かつ困難である。 本稿では,タスクに適した表現を適応的に絞り込むために,アテンション機構を活用する新しい手法を提案する。 一方,情報理論に依拠して,多種多様な前文からの表現の収集が単一の表現よりも効果的であることを理論的に証明する。 広範囲にわたる実験により,提案手法は,現在の一般的なプリテキストマッチング手法をはるかに上回っており,知識の収集や下流タスクにおける負の伝達の軽減に寄与することを確認した。

Self-supervised learning (SSL), as a newly emerging unsupervised representation learning paradigm, generally follows a two-stage learning pipeline: 1) learning invariant and discriminative representations with auto-annotation pretext(s), then 2) transferring the representations to assist downstream task(s). Such two stages are usually implemented separately, making the learned representation learned agnostic to the downstream tasks. Currently, most works are devoted to exploring the first stage. Whereas, it is less studied on how to learn downstream tasks with limited labeled data using the already learned representations. Especially, it is crucial and challenging to selectively utilize the complementary representations from diverse pretexts for a downstream task. In this paper, we technically propose a novel solution by leveraging the attention mechanism to adaptively squeeze suitable representations for the tasks. Meanwhile, resorting to information theory, we theoretically prove that gathering representation from diverse pretexts is more effective than a single one. Extensive experiments validate that our scheme significantly exceeds current popular pretext-matching based methods in gathering knowledge and relieving negative transfer in downstream tasks.
翻訳日:2022-04-12 14:32:40 公開日:2022-04-11
# SF-PATE: 教師の集まりのスケーラブル、フェア、プライベートアグリゲーション

SF-PATE: Scalable, Fair, and Private Aggregation of Teacher Ensembles ( http://arxiv.org/abs/2204.05157v1 )

ライセンス: Link先を確認
Cuong Tran, Keyu Zhu, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) データ駆動プロセスにおける重要な関心事は、結果が性別、民族、年齢を含む一部の人口集団と差別しないモデルを構築することである。 学習課題における非差別性を確保するためには,グループ属性の知識が不可欠である。 しかし実際には、これらの属性は法的および倫理的要件のために利用できない可能性がある。 そこで本研究では,個人の機密情報のプライバシーを保護しつつ,非差別的予測を学習できるモデルについて検討する。 提案モデルの主な特徴は、プライバシ保護とフェアモデルを作成するために、オフ・ザ・セルフと非プライベートフェアモデルの採用を可能にすることである。 本稿では,正確性,プライバシ,公平性の関係を分析し,いくつかの予測タスクにおける提案モデルの有効性を実験的に評価した。 特に、この提案は、非常に大きなニューラルネットワークのプライベートモデルとフェアモデルのスケーラブルで正確なトレーニングを可能にする最初のものである。

A critical concern in data-driven processes is to build models whose outcomes do not discriminate against some demographic groups, including gender, ethnicity, or age. To ensure non-discrimination in learning tasks, knowledge of the group attributes is essential. However, in practice, these attributes may not be available due to legal and ethical requirements. To address this challenge, this paper studies a model that protects the privacy of the individuals' sensitive information while also allowing it to learn non-discriminatory predictors. A key characteristic of the proposed model is to enable the adoption of off-the-selves and non-private fair models to create a privacy-preserving and fair model. The paper analyzes the relation between accuracy, privacy, and fairness, and the experimental evaluation illustrates the benefits of the proposed models on several prediction tasks. In particular, this proposal is the first to allow both scalable and accurate training of private and fair models for very large neural networks.
翻訳日:2022-04-12 14:30:02 公開日:2022-04-11
# 拘束型MDPの無痛政策最適化に向けて

Towards Painless Policy Optimization for Constrained MDPs ( http://arxiv.org/abs/2204.05176v1 )

ライセンス: Link先を確認
Arushi Jain, Sharan Vaswani, Reza Babanezhad, Csaba Szepesvari, Doina Precup(参考訳) 政策最適化を無限の地平線,$\gamma$-discounted constrained Markov decision process (CMDP) で研究する。 私たちの目標は、小さな制約違反で大きな期待値を達成するポリシーを返すことです。 線形関数近似によるオンライン設定を検討し,対応する機能へのグローバルアクセスを仮定する。 オンライン線形最適化問題に対する予備的かつ二重的後悔の観点から,任意のアルゴリズムに対する報酬副最適化性と制約違反を制限できる汎用的原始双対フレームワークを提案する。 我々はこのフレームワークをインスタンス化してコインベッティングアルゴリズムを使用し、コインベッティングポリテックス(CBP)アルゴリズムを提案する。 アクション値関数が$\varepsilon_b$--d$- dimensional state-action featuresのスパンに近く、サンプリングエラーがないと仮定すると、cppの$t$反復は$o\left(\frac{1}{(1 - \gamma)^3 \sqrt{t}} + \frac{\varepsilon_b\sqrt{d}}{(1 - \gamma)^2} \right)$ reward sub-optimality と$o\left(\frac{1}{(1 - \gamma)^2 \sqrt{t}} + \frac{\varepsilon_b \sqrt{d}}{1 - \gamma} \right)$ 制約を犯す。 重要なことに、勾配降下上昇法や他の最近の手法とは異なり、CBPは広範なハイパーパラメータチューニングを必要としない。 合成およびカルトポール環境の実験により, CBPの有効性とロバスト性を実証した。

We study policy optimization in an infinite horizon, $\gamma$-discounted constrained Markov decision process (CMDP). Our objective is to return a policy that achieves large expected reward with a small constraint violation. We consider the online setting with linear function approximation and assume global access to the corresponding features. We propose a generic primal-dual framework that allows us to bound the reward sub-optimality and constraint violation for arbitrary algorithms in terms of their primal and dual regret on online linear optimization problems. We instantiate this framework to use coin-betting algorithms and propose the Coin Betting Politex (CBP) algorithm. Assuming that the action-value functions are $\varepsilon_b$-clos e to the span of the $d$-dimensional state-action features and no sampling errors, we prove that $T$ iterations of CBP result in an $O\left(\frac{1}{(1 - \gamma)^3 \sqrt{T}} + \frac{\varepsilon_b\sqrt{d}}{(1 - \gamma)^2} \right)$ reward sub-optimality and an $O\left(\frac{1}{(1 - \gamma)^2 \sqrt{T}} + \frac{\varepsilon_b \sqrt{d}}{1 - \gamma} \right)$ constraint violation. Importantly, unlike gradient descent-ascent and other recent methods, CBP does not require extensive hyperparameter tuning. Via experiments on synthetic and Cartpole environments, we demonstrate the effectiveness and robustness of CBP.
翻訳日:2022-04-12 14:28:08 公開日:2022-04-11
# RMFGP:高次元不確かさ量子化のための次元削減による回転多忠実ガウス過程

RMFGP: Rotated Multi-fidelity Gaussian process with Dimension Reduction for High-dimensional Uncertainty Quantification ( http://arxiv.org/abs/2204.04819v1 )

ライセンス: Link先を確認
Jiahao Zhang, Shiqi Zhang, Guang Lin(参考訳) マルチ忠実性モデリングは、計算科学や工学の世界において様々な状況で発生する。 少数の正確なデータが利用可能であっても、正確な推論を可能にする。 これらのデータは高忠実度モデルから得られることが多い。 高忠実度モデルと1つ以上の低忠実度モデルを組み合わせることで、多忠実度法は興味のある量の正確な予測を行うことができる。 本稿では, 回転多面体ガウス過程の回帰に基づく新しい次元削減フレームワークと, 正確な観測が不十分なベイズ能動学習手法を提案する。 訓練された回転多重忠実度モデルからサンプルを描画することにより、分割平均偏差推定(SAVE)法とガウス過程回帰次元縮小法を組み合わせたいわゆる教師付き次元縮小問題を解くことができる。 この汎用フレームワークは,従来の次元縮小法を適用できないため,高次元問題を効果的に解くことができる。 さらに, 学習したモデルに基づいて, 元の問題のより正確なサーロゲートガウス過程モデルを得ることができる。 提案する回転多元性ガウス過程(rmfgp)の有効性を4つの数値例で示している。 以上の結果から, 確率偏微分方程式を含む最後の2例について不確かさ伝播解析を行い, いずれの場合においても精度が向上した。

Multi-fidelity modelling arises in many situations in computational science and engineering world. It enables accurate inference even when only a small set of accurate data is available. Those data often come from a high-fidelity model, which is computationally expensive. By combining the realizations of the high-fidelity model with one or more low-fidelity models, the multi-fidelity method can make accurate predictions of quantities of interest. This paper proposes a new dimension reduction framework based on rotated multi-fidelity Gaussian process regression and a Bayesian active learning scheme when the available precise observations are insufficient. By drawing samples from the trained rotated multi-fidelity model, the so-called supervised dimension reduction problems can be solved following the idea of the sliced average variance estimation (SAVE) method combined with a Gaussian process regression dimension reduction technique. This general framework we develop can effectively solve high-dimensional problems while the data are insufficient for applying traditional dimension reduction methods. Moreover, a more accurate surrogate Gaussian process model of the original problem can be obtained based on our trained model. The effectiveness of the proposed rotated multi-fidelity Gaussian process(RMFGP) model is demonstrated in four numerical examples. The results show that our method has better performance in all cases and uncertainty propagation analysis is performed for last two cases involving stochastic partial differential equations.
翻訳日:2022-04-12 14:26:56 公開日:2022-04-11
# 教師なし射影と二階信号について

On unsupervised projections and second order signals ( http://arxiv.org/abs/2204.05139v1 )

ライセンス: Link先を確認
Thomas Lartigue, Sach Mukherjee(参考訳) 線形射影は高次元データの解析に広く用いられている。 データが潜在クラス/クラスタを格納する教師なしの設定では、投影下でクラス識別シグナルが保持されるかどうかという問題は重要である。 クラス間の平均的な違いの場合、この質問はよく研究されている。 しかし、多くの現代の応用、特に生医学において、共分散やグラフィカルモデル構造における群差が重要である。 そこで,このような応用に動機づけられて,線形射影が潜在群間の二次構造の違いを保存できるかどうかを問う。 我々は,クラスラベルを知らずに計算できる教師なし射影に注目した。 本稿では,そのような射影の挙動を研究するための単純な理論的枠組みについて検討する。 これにより、乱射影(RP)と主成分分析(PCA)という2つの一般的なプロジェクションの10万以上のデータ生成集団パラメータのパフォーマンスを考えることができる。 この広い範囲のレジームにおいて、PCAはRPよりも2階信号を保持するのに効果的であることが判明し、しばしば監督投影と競合する。 シミュレーションデータと実データを用いて,0-1の損失を示す実験を行った。 また,投影次元の影響についても検討し,バイアス分散トレードオフに注目した。 以上の結果から,PCAは,差分共分散やグラフィカルモデル構造が興味のある場合を含め,教師なし分析に適した第一歩となる可能性が示唆された。

Linear projections are widely used in the analysis of high-dimensional data. In unsupervised settings where the data harbour latent classes/clusters, the question of whether class discriminatory signals are retained under projection is crucial. In the case of mean differences between classes, this question has been well studied. However, in many contemporary applications, notably in biomedicine, group differences at the level of covariance or graphical model structure are important. Motivated by such applications, in this paper we ask whether linear projections can preserve differences in second order structure between latent groups. We focus on unsupervised projections, which can be computed without knowledge of class labels. We discuss a simple theoretical framework to study the behaviour of such projections which we use to inform an analysis via quasi-exhaustive enumeration. This allows us to consider the performance, over more than a hundred thousand sets of data-generating population parameters, of two popular projections, namely random projections (RP) and Principal Component Analysis (PCA). Across this broad range of regimes, PCA turns out to be more effective at retaining second order signals than RP and is often even competitive with supervised projection. We complement these results with fully empirical experiments showing 0-1 loss using simulated and real data. We study also the effect of projection dimension, drawing attention to a bias-variance trade-off in this respect. Our results show that PCA can indeed be a suitable first-step for unsupervised analysis, including in cases where differential covariance or graphical model structure are of interest.
翻訳日:2022-04-12 14:26:35 公開日:2022-04-11
# サージェクティブ・マルチモーダルデータの変動を無視できるMixture-of-experts VAE

Mixture-of-experts VAEs can disregard variation in surjective multimodal data ( http://arxiv.org/abs/2204.05229v1 )

ライセンス: Link先を確認
Jannik Wolff, Tassilo Klein, Moin Nabi, Rahul G. Krishnan, Shinichi Nakajima(参考訳) 機械学習システムは、複数のモダリティからのデータを含むドメインに展開されることが多い。 従来、複数のモードを生成するマルチモーダル変分オートエンコーダ(VAE)が開発されてきた。 1つのモダリティ(クラスラベルなど)から1つのデータポイントが別のモダリティ(画像など)から複数のデータポイントを記述する主観的データを考える。 理論的および実験的に、後続の専門家の混在したマルチモーダルVAEが、そのような主観的データの変動を捉えるのに苦労することを実証する。

Machine learning systems are often deployed in domains that entail data from multiple modalities, for example, phenotypic and genotypic characteristics describe patients in healthcare. Previous works have developed multimodal variational autoencoders (VAEs) that generate several modalities. We consider subjective data, where single datapoints from one modality (such as class labels) describe multiple datapoints from another modality (such as images). We theoretically and empirically demonstrate that multimodal VAEs with a mixture of experts posterior can struggle to capture variability in such surjective data.
翻訳日:2022-04-12 14:26:11 公開日:2022-04-11
# (参考訳) アスペクトベース感情分析データセットの調査 [全文訳有]

Survey of Aspect-based Sentiment Analysis Datasets ( http://arxiv.org/abs/2204.05232v1 )

ライセンス: CC BY-SA 4.0
Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio(参考訳) アスペクトベース感情分析(Aspect-based sentiment analysis、ABSA)は、ユーザ生成レビューの分析を必要とする自然言語処理の問題である。 a) 審査対象の実体 b)それが属する上位の局面,及び c) 目標及び側面に対して表現された感情。 ABSAの多くの散在したコーパスは、研究者が特定のABSAサブタスクに適したコーパスを素早く特定することが困難である。 本研究の目的は,自律型absaシステムの訓練と評価に使用できるコーパスのデータベースを提供することである。 さらに,様々なABSAとそのサブタスクに関する主要なコーパスの概要と,コーパスを選択する際に考慮すべきいくつかのコーパスの特徴について概説する。 さらに大規模なABSAコーパスが必要であると結論付けている。 さらに、各コーパスは異なる構成であるため、研究者が新しいABSAアルゴリズムを多くのコーパスで実験するのに時間がかかる。 この分野はABSAコーパスのデータ標準に関する合意の恩恵を受けるだろう。 最後に,現在の収集手法の利点と欠点について考察し,今後のABSAデータセット収集を推奨する。

Aspect-based sentiment analysis (ABSA) is a natural language processing problem that requires analyzing user-generated reviews in order to determine: a) The target entity being reviewed, b) The high-level aspect to which it belongs, and c) The sentiment expressed toward the targets and the aspects. Numerous yet scattered corpora for ABSA make it difficult for researchers to quickly identify corpora best suited for a specific ABSA subtask. This study aims to present a database of corpora that can be used to train and assess autonomous ABSA systems. Additionally, we provide an overview of the major corpora concerning the various ABSA and its subtasks and highlight several corpus features that researchers should consider when selecting a corpus. We conclude that further large-scale ABSA corpora are required. Additionally, because each corpus is constructed differently, it is time-consuming for researchers to experiment with a novel ABSA algorithm on many corpora and often employ just one or a few corpora. The field would benefit from an agreement on a data standard for ABSA corpora. Finally, we discuss the advantages and disadvantages of current collection approaches and make recommendations for future ABSA dataset gathering.
翻訳日:2022-04-12 14:24:33 公開日:2022-04-11
# 全スペクトル分布検出

Full-Spectrum Out-of-Distribution Detection ( http://arxiv.org/abs/2204.05306v1 )

ライセンス: Link先を確認
Jingkang Yang, Kaiyang Zhou, Ziwei Liu(参考訳) 既存のアウト・オブ・ディストリビューション(OOD)検出文献は、セマンティックシフトをOODの兆候として明確に定義しているが、共変量シフトに関するコンセンサスを持たない。 共変量シフトを経験するが意味的シフトではないサンプルは、テストセットから除外されるか、oodとして扱われる。 本稿では、シフトタイプとフルスペクトルOOD(FS-OOD)検出の両方を考慮して、セマンティックシフトの検出とコバリアレートシフトに対する耐性の両方を考慮したより現実的な問題設定を行い、3つのベンチマークを設計する。 これらの新しいベンチマークは、アルゴリズムの長所と短所をより包括的に評価するために、よりきめ細かい分布(訓練ID、共変量シフトID、近くOOD、遠OOD)を分類する。 FS-OOD検出問題に対処するため,単純な特徴に基づくセマンティックススコア関数であるSEMを提案する。 SEMは主に2つの確率測度から構成される: 1つは意味的情報と非意味的情報の両方を含む高レベル特徴に基づいており、もう1つは低レベル特徴統計に基づいて非意味的画像スタイルをキャプチャする。 単純な組み合わせで、非意味的な部分はキャンセルされ、FS-OOD検出をよりうまく処理できるSEMにのみ意味情報が残される。 3つの新しいベンチマークの大規模な実験により、SEMは現在の最先端手法よりも大幅に優れていることが示された。 私たちのコードとベンチマークはhttps://github.com/J ingkang50/OpenOOD.or gで公開されています。

Existing out-of-distribution (OOD) detection literature clearly defines semantic shift as a sign of OOD but does not have a consensus over covariate shift. Samples experiencing covariate shift but not semantic shift are either excluded from the test set or treated as OOD, which contradicts the primary goal in machine learning -- being able to generalize beyond the training distribution. In this paper, we take into account both shift types and introduce full-spectrum OOD (FS-OOD) detection, a more realistic problem setting that considers both detecting semantic shift and being tolerant to covariate shift; and designs three benchmarks. These new benchmarks have a more fine-grained categorization of distributions (i.e., training ID, covariate-shifted ID, near-OOD, and far-OOD) for the purpose of more comprehensively evaluating the pros and cons of algorithms. To address the FS-OOD detection problem, we propose SEM, a simple feature-based semantics score function. SEM is mainly composed of two probability measures: one is based on high-level features containing both semantic and non-semantic information, while the other is based on low-level feature statistics only capturing non-semantic image styles. With a simple combination, the non-semantic part is cancelled out, which leaves only semantic information in SEM that can better handle FS-OOD detection. Extensive experiments on the three new benchmarks show that SEM significantly outperforms current state-of-the-art methods. Our code and benchmarks are released in https://github.com/J ingkang50/OpenOOD.
翻訳日:2022-04-12 13:53:09 公開日:2022-04-11
# ゼロショット対話的意味的役割ラベリング

Zero-shot Cross-lingual Conversational Semantic Role Labeling ( http://arxiv.org/abs/2204.04914v1 )

ライセンス: Link先を確認
Han Wu, Haochen Tan, Kun Xu, Shuqi Liu, Lianwei Wu and Linqi Song(参考訳) 会話の意味的役割ラベル付け (CSRL) は中国語の会話課題に有用であるが, パーサー訓練に多言語CSRLアノテーションが欠如しているため, 中国語以外の言語では未探索である。 高いデータ収集と翻訳に基づく手法の誤り伝播を避けるため,ゼロショット言語間csrlを行うための単純かつ効果的な手法を提案する。 本モデルは,階層エンコーダと精巧に設計された事前学習目標を用いて,言語に依存しない,対話型構造認識と意味豊かな表現を暗黙的に学習する。 実験結果から,新たに収集した2つの英語CSRLテストセットにおいて,本モデルがすべてのベースラインを大きなマージンで上回ることがわかった。 さらに,CSRL情報を下流の会話ベースモデルに組み込むことで,英語・ドイツ語・日本語の質問文書き直しタスクや多ターン対話応答生成タスクなど,中国語以外の会話タスクに対するCSRLの有用性を確認した。 この発見は重要であり、エリプシスとアナフォラの問題に苦しむ非中国語対話タスクの研究が促進されると信じている。

While conversational semantic role labeling (CSRL) has shown its usefulness on Chinese conversational tasks, it is still under-explored in non-Chinese languages due to the lack of multilingual CSRL annotations for the parser training. To avoid expensive data collection and error-propagation of translation-based methods, we present a simple but effective approach to perform zero-shot cross-lingual CSRL. Our model implicitly learns language-agnostic, conversational structure-aware and semantically rich representations with the hierarchical encoders and elaborately designed pre-training objectives. Experimental results show that our model outperforms all baselines by large margins on two newly collected English CSRL test sets. More importantly, we confirm the usefulness of CSRL to non-Chinese conversational tasks such as the question-in-context rewriting task in English and the multi-turn dialogue response generation tasks in English, German and Japanese by incorporating the CSRL information into the downstream conversation-based models. We believe this finding is significant and will facilitate the research of non-Chinese dialogue tasks which suffer the problems of ellipsis and anaphora.
翻訳日:2022-04-12 13:50:24 公開日:2022-04-11
# ニューラルアーキテクチャにおける不適切な重みの正規化に基づくプルーニング

Regularization-based Pruning of Irrelevant Weights in Deep Neural Architectures ( http://arxiv.org/abs/2204.04977v1 )

ライセンス: Link先を確認
Giovanni Bonetta, Matteo Ribero and Rossella Cancelliere(参考訳) 数百万のパラメータを利用するディープニューラルネットワークは現在、ディープラーニングアプリケーションでは標準となっている。 これは、トレーニングに必要な膨大な計算資源と、過度にパラメータ化されたネットワークの一般化性能の欠如による潜在的な問題である。 本稿では,無関係な重みを識別し,そのノルムを選択的に縮小する正規化手法を用いて,スパース神経トポロジーを学習する手法を提案する。 この手法は古典的重み劣化の改善であり、形式によらず任意の損失関数に付加できる正規化項の定義に基づいており、結果として多くの異なる文脈で活用できる統一的な一般フレームワークとなる。 非関連として同定されたパラメータの実際の除去は反復的プルーニングアルゴリズムによって処理される。 提案手法を異なる画像分類と自然言語生成タスクでテストし,スパーシティとメトリクスの面での競合と同等以上の結果を得るとともに,強力なモデル圧縮を実現した。

Deep neural networks exploiting millions of parameters are nowadays the norm in deep learning applications. This is a potential issue because of the great amount of computational resources needed for training, and of the possible loss of generalization performance of overparametrized networks. We propose in this paper a method for learning sparse neural topologies via a regularization technique which identifies non relevant weights and selectively shrinks their norm, while performing a classic update for relevant ones. This technique, which is an improvement of classical weight decay, is based on the definition of a regularization term which can be added to any loss functional regardless of its form, resulting in a unified general framework exploitable in many different contexts. The actual elimination of parameters identified as irrelevant is handled by an iterative pruning algorithm. We tested the proposed technique on different image classification and Natural language generation tasks, obtaining results on par or better then competitors in terms of sparsity and metrics, while achieving strong models compression.
翻訳日:2022-04-12 13:50:04 公開日:2022-04-11
# 言語モデルと言語間シーケンスラベリングのギャップの橋渡し

Bridging the Gap between Language Models and Cross-Lingual Sequence Labeling ( http://arxiv.org/abs/2204.05210v1 )

ライセンス: Link先を確認
Nuo Chen, Linjun Shou, Ming Gong, Jian Pei, Daxin Jiang(参考訳) 大規模言語間事前学習言語モデル (xPLMs) は、高リソース言語から低リソース言語への知識の伝達により、言語間機械読解 (xMRC) などの言語間シーケンスラベリングタスク (xSL) において有効であることを示す。 例えば、マスク言語モデリングの目的にはマスクトークンの局所的な理解が必要であり、スパン抽出の目的には入力パス/パラグラフと質問のグローバルな理解と推論が必要であり、事前学習とxMRCの相違につながる。 本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLに適した事前学習タスクを設計し,自己教師型手法の客観的ギャップを解消する。 第2に、コントラスト学習を利用して、事前学習中に教師なしの言語間インスタンスワイズ学習信号を介して入力並列シーケンスの表現間の一貫性を促進するContrAstive-Consiste ncy Regularization (CACR)を提案する。 これらの方法により,プリトレイン・フィニチューン間のギャップを橋渡しするだけでなく,異なる言語間のアライメントをよりよく捉えるためにplmを強化する。 予備学習データに制限のある複数のxSLベンチマークにおいて,本手法が明らかに優れていることを示す。 我々の手法は、数百のトレーニング例しか利用できない数ショットのデータ設定において、従来の最先端の手法をはるかに上回っている。

Large-scale cross-lingual pre-trained language models (xPLMs) have shown effectiveness in cross-lingual sequence labeling tasks (xSL), such as cross-lingual machine reading comprehension (xMRC) by transferring knowledge from a high-resource language to low-resource languages. Despite the great success, we draw an empirical observation that there is a training objective gap between pre-training and fine-tuning stages: e.g., mask language modeling objective requires local understanding of the masked token and the span-extraction objective requires global understanding and reasoning of the input passage/paragraph and question, leading to the discrepancy between pre-training and xMRC. In this paper, we first design a pre-training task tailored for xSL named Cross-lingual Language Informative Span Masking (CLISM) to eliminate the objective gap in a self-supervised manner. Second, we present ContrAstive-Consiste ncy Regularization (CACR), which utilizes contrastive learning to encourage the consistency between representations of input parallel sequences via unsupervised cross-lingual instance-wise training signals during pre-training. By these means, our methods not only bridge the gap between pretrain-finetune, but also enhance PLMs to better capture the alignment between different languages. Extensive experiments prove that our method achieves clearly superior results on multiple xSL benchmarks with limited pre-training data. Our methods also surpass the previous state-of-the-art methods by a large margin in few-shot data settings, where only a few hundred training examples are available.
翻訳日:2022-04-12 13:49:48 公開日:2022-04-11
# (参考訳) 検索クリックログに基づくテキスト類似性事前学習による汎用的セマンティック製品検索に向けて [全文訳有]

Towards Generalizeable Semantic Product Search by Text Similarity Pre-training on Search Click Logs ( http://arxiv.org/abs/2204.05231v1 )

ライセンス: CC BY 4.0
Zheng Liu, Wei Zhang, Yan Chen, Weiyi Sun, Michael Du, Benjamin Schroeder(参考訳) 近年,eコマース製品検索にセマンティック検索が適用され,クエリや製品エンコーディングのための学習意味空間が,未認識のクエリや製品に一般化することが期待されている。 しかし、この領域では、便利に一般化できるかどうかが十分に研究されていない。 本稿では、いくつかの一般ドメインおよびドメイン固有の事前学習されたロバータ変種を調査し、一般ドメインの微調整が一般化に役立たないことを発見し、先行技術の発見と整合する。 クリックストリームデータによる適切なドメイン固有の微調整は、公開されている手動注釈付きクエリ-製品ペアデータのバケット分析に基づいて、モデル一般化の改善につながる可能性がある。

Recently, semantic search has been successfully applied to e-commerce product search and the learned semantic space(s) for query and product encoding are expected to generalize to unseen queries or products. Yet, whether generalization can conveniently emerge has not been thoroughly studied in the domain thus far. In this paper, we examine several general-domain and domain-specific pre-trained Roberta variants and discover that general-domain fine-tuning does not help generalization, which aligns with the discovery of prior art. Proper domain-specific fine-tuning with clickstream data can lead to better model generalization, based on a bucketed analysis of a publicly available manual annotated query-product pair data.
翻訳日:2022-04-12 13:47:01 公開日:2022-04-11
# (参考訳) 自然言語フィードバックによるロボット計画の修正 [全文訳有]

Correcting Robot Plans with Natural Language Feedback ( http://arxiv.org/abs/2204.05186v1 )

ライセンス: CC BY 4.0
Pratyusha Sharma, Balakumar Sundaralingam, Valts Blukis, Chris Paxton, Tucker Hermans, Antonio Torralba, Jacob Andreas, Dieter Fox(参考訳) 人間がロボットのコストや目標仕様を設計するとき、しばしば不明瞭で不明確で、プランナーの問題解決能力を超える仕様を作成する。 このような場合、修正は、ロボット制御のための貴重なツールとなる。 補正は、新しい目標仕様、新しい制約(例えば、特定のオブジェクトを避けるために)、または計画アルゴリズムのヒント(例えば、特定の経路ポイントを訪れるために)の形式をとる。 既存の補正方法(例えばジョイスティックの使用やエンドエフェクターの直接操作など)は完全な遠隔操作やリアルタイム操作を必要とする。 本稿では,ロボット訂正のための表現的かつ柔軟なツールとして自然言語を探索する。 本稿では,自然言語文からコスト関数の変換へのマッピングについて述べる。 これらの変換により、ユーザーは目標を正し、ロボットの動きをアップデートし、追加のユーザの好みを満たし、計画エラーから回復することができる。 これらの補正は、最初のプランナーが失敗したタスクで81%と93%の成功率を得るために利用することができる。 本手法により,複数の制約を設定でき,シミュレーション環境や実環境において未認識のシーン,オブジェクト,文に一般化できる。

When humans design cost or goal specifications for robots, they often produce specifications that are ambiguous, underspecified, or beyond planners' ability to solve. In these cases, corrections provide a valuable tool for human-in-the-loop robot control. Corrections might take the form of new goal specifications, new constraints (e.g. to avoid specific objects), or hints for planning algorithms (e.g. to visit specific waypoints). Existing correction methods (e.g. using a joystick or direct manipulation of an end effector) require full teleoperation or real-time interaction. In this paper, we explore natural language as an expressive and flexible tool for robot correction. We describe how to map from natural language sentences to transformations of cost functions. We show that these transformations enable users to correct goals, update robot motions to accommodate additional user preferences, and recover from planning errors. These corrections can be leveraged to get 81% and 93% success rates on tasks where the original planner failed, with either one or two language corrections. Our method makes it possible to compose multiple constraints and generalizes to unseen scenes, objects, and sentences in simulated environments and real-world environments.
翻訳日:2022-04-12 13:28:49 公開日:2022-04-11
# 事前学習言語モデルによる説明グラフ生成:コントラスト学習を用いた実証的研究

Explanation Graph Generation via Pre-trained Language Models: An Empirical Study with Contrastive Learning ( http://arxiv.org/abs/2204.04813v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Prateek Yadav, Mohit Bansal(参考訳) 事前学習されたシーケンスからシーケンスへの言語モデルは多くの自然言語生成タスクで広く成功を収めた。 しかし、グラフのような構造化出力を生成する能力を分析する研究は比較的少ない。 自然言語とは異なり、グラフは下流のNLPタスクの文脈において異なる構造的および意味的特性を持ち、例えば、連結された非巡回グラフを生成することは、その構造的制約に起因し得るが、グラフの意味論は、エッジが2つのノードの概念の間の関係を意味的に表すことを示すことができる。 そこで本研究では,エンドツーエンドで説明グラフを生成する事前学習言語モデルについて検討し,その構造的制約や意味を学習する能力について分析する。 まず,事前学習された言語モデルは,制約に違反するか,あるいは意味的に一貫性のないグラフを生成することが多い。 そこで我々は, ノードおよびエッジ編集操作によるグラフ摂動の簡易かつ効果的な方法を提案し, 構造的かつ意味論的に正なグラフと負のグラフを導出する。 次に、これらのグラフをMax-MarginとInfoNCEの損失を伴う異なるコントラスト学習モデルで活用する。 提案手法は,説明グラフの構造的および意味的精度を向上し,他の類似グラフ生成タスクに一般化する。 最後に,人間の誤りがコントラスト学習の最良の否定点であること,また,このような人間的な負のグラフを自動生成することでさらなる改善につながることを示す。 私たちのコードとモデルはhttps://github.com/s warnaHub/ExplagraphG enで公開されています。

Pre-trained sequence-to-sequence language models have led to widespread success in many natural language generation tasks. However, there has been relatively less work on analyzing their ability to generate structured outputs such as graphs. Unlike natural language, graphs have distinct structural and semantic properties in the context of a downstream NLP task, e.g., generating a graph that is connected and acyclic can be attributed to its structural constraints, while the semantics of a graph can refer to how meaningfully an edge represents the relation between two node concepts. In this work, we study pre-trained language models that generate explanation graphs in an end-to-end manner and analyze their ability to learn the structural constraints and semantics of such graphs. We first show that with limited supervision, pre-trained language models often generate graphs that either violate these constraints or are semantically incoherent. Since curating large amount of human-annotated graphs is expensive and tedious, we propose simple yet effective ways of graph perturbations via node and edge edit operations that lead to structurally and semantically positive and negative graphs. Next, we leverage these graphs in different contrastive learning models with Max-Margin and InfoNCE losses. Our methods lead to significant improvements in both structural and semantic accuracy of explanation graphs and also generalize to other similar graph generation tasks. Lastly, we show that human errors are the best negatives for contrastive learning and also that automatically generating more such human-like negative graphs can lead to further improvements. Our code and models are publicly available at https://github.com/s warnaHub/ExplagraphG en
翻訳日:2022-04-12 13:10:11 公開日:2022-04-11
# 親しみやすい隣人を見つける方法:セルフスーパービジョンによるグラフアテンションデザイン

How to Find Your Friendly Neighborhood: Graph Attention Design with Self-Supervision ( http://arxiv.org/abs/2204.04879v1 )

ライセンス: Link先を確認
Dongkwan Kim and Alice Oh(参考訳) グラフニューラルネットワークのアテンション機構は、より優れた表現のために重要な隣ノードにより大きな重みを割り当てるように設計されている。 しかし、特にグラフが騒がしい場合、グラフの注意が学ぶことはよく理解されていない。 本稿では、ノイズグラフに対する改善されたグラフアテンションモデルである、自己教師付きグラフアテンションネットワーク(SuperGAT)を提案する。 具体的には,ノード間の関係の重要性に関する固有情報を含むエッジ予測のために,自己教師付きタスクと互換性のある2つの注意形式を利用する。 エッジを符号化することで、SuperGATは、リンクされた隣人を識別する際により表現力のある注意を学習する。 その結果,注意形態と自己スーパービジョンの効果に2つのグラフ特性が影響することがわかった。 そこで本研究では,これら2つのグラフ特性が知られている場合の注意設計について指導を行う。 実世界の17のデータセットに対する我々の実験は、レシピが15のデータセットにまたがって一般化されることを示し、レシピによって設計されたモデルはベースラインよりもパフォーマンスが向上したことを示している。

Attention mechanism in graph neural networks is designed to assign larger weights to important neighbor nodes for better representation. However, what graph attention learns is not understood well, particularly when graphs are noisy. In this paper, we propose a self-supervised graph attention network (SuperGAT), an improved graph attention model for noisy graphs. Specifically, we exploit two attention forms compatible with a self-supervised task to predict edges, whose presence and absence contain the inherent information about the importance of the relationships between nodes. By encoding edges, SuperGAT learns more expressive attention in distinguishing mislinked neighbors. We find two graph characteristics influence the effectiveness of attention forms and self-supervision: homophily and average degree. Thus, our recipe provides guidance on which attention design to use when those two graph characteristics are known. Our experiment on 17 real-world datasets demonstrates that our recipe generalizes across 15 datasets of them, and our models designed by recipe show improved performance over baselines.
翻訳日:2022-04-12 13:09:18 公開日:2022-04-11
# (参考訳) クラスインクリメンタル学習のための事前学習表現によるインクリメンタルプロトタイププロンプトチューニング [全文訳有]

Incremental Prototype Prompt-tuning with Pre-trained Representation for Class Incremental Learning ( http://arxiv.org/abs/2204.03410v2 )

ライセンス: CC BY 4.0
Jieren Deng and Jianhua Hu and Haojian Zhang and Yunkuan Wang(参考訳) クラスインクリメンタルラーニングは多くの注目を集めているが、既存のほとんどの研究は依然として表現モデルを微調整し続けており、悲惨なほど忘れてしまう。 既存のほとんどの方法と同様に、リプレイや蒸留によってそのような忘れ物と戦うのに苦労する代わりに、私たちは、インクリメンタルプロトタイププロンプトチューニング(IPP)によって、固定された意味豊かな事前学習表現モデルに基づいて、新しい視覚概念を逐次学習する事前学習パラダイムを採用し、破滅的な忘れ物を大幅に減少させる。 さらに,異なる位相における学習バイアスに起因する問題である意味的ドリフトを補うために,プロトタイプ分類の例を提案する。 3つのインクリメンタル・ラーニング・ベンチマークで行った広範囲な実験は、この手法が最先端の他の手法よりも大きなマージンで一貫して優れていることを示している。

Class incremental learning has attracted much attention, but most existing works still continually fine-tune the representation model, resulting in much catastrophic forgetting. Instead of struggling to fight against such forgetting by replaying or distillation like most of the existing methods, we take the pre-train-and-prompt -tuning paradigm to sequentially learn new visual concepts based on a fixed semantic rich pre-trained representation model by incremental prototype prompt-tuning (IPP), which substantially reduces the catastrophic forgetting. In addition, an example prototype classification is proposed to compensate for semantic drift, the problem caused by learning bias at different phases. Extensive experiments conducted on the three incremental learning benchmarks demonstrate that our method consistently outperforms other state-of-the-art methods with a large margin.
翻訳日:2022-04-12 11:53:54 公開日:2022-04-11
# (参考訳) スマート環境におけるトランスファーラーニングのためのブロックチェーン [全文訳有]

Blockchain as an Enabler for Transfer Learning in Smart Environments ( http://arxiv.org/abs/2204.03959v2 )

ライセンス: CC BY 4.0
Amin Anjomshoaa and Edward Curry(参考訳) インテリジェントシステムのための機械学習モデルに具体化された知識は、大規模データ収集、データラベリング、ネットワークトレーニング、モデルの微調整といった、時間とコストのかかるプロセスと一般的に関連している。 トランスファーラーニングと呼ばれる別の環境にデプロイされたインテリジェントなシステム間で、これらの精巧なモデルの共有と再利用は、ユーザのためのサービスの採用を促進し、スマートビルディングやスマートシティアプリケーションといった環境におけるインテリジェントなシステムの取り込みを加速する。 この文脈では、AI対応環境間のコミュニケーションと知識交換は、システム、システムのシステム、デジタル資産、および従来の情報システムの集中型スキーマにほとんど従わない依存関係の連鎖の複雑なネットワークに依存する。 むしろ、データプロファイランス、ワークフローの透明性、プロセス参加者の検証といった機能によって強化された、適応的な分散システムアーキテクチャが必要です。 本研究では,IoT対応環境間の知識交換と相互運用性をサポートするブロックチェーンとナレッジグラフ技術に基づく分散適応型ソフトウェアフレームワークを,透過的で信頼性の高い方法で提案する。

The knowledge, embodied in machine learning models for intelligent systems, is commonly associated with time-consuming and costly processes such as large-scale data collection, data labelling, network training, and fine-tuning of models. Sharing and reuse of these elaborated models between intelligent systems deployed in a different environment, which is known as transfer learning, would facilitate the adoption of services for the users and accelerates the uptake of intelligent systems in environments such as smart building and smart city applications. In this context, the communication and knowledge exchange between AI-enabled environments depend on a complicated networks of systems, system of systems, digital assets, and their chain of dependencies that hardly follows the centralized schema of traditional information systems. Rather, it requires an adaptive decentralized system architecture that is empowered by features such as data provenance, workflow transparency, and validation of process participants. In this research, we propose a decentralized and adaptive software framework based on blockchain and knowledge graph technologies that supports the knowledge exchange and interoperability between IoT-enabled environments, in a transparent and trustworthy way.
翻訳日:2022-04-12 11:38:02 公開日:2022-04-11
# (参考訳) DAD-3Dヘッド:1枚の画像から3次元頭部アライメントのための大規模Dense, Accurate, Diverse Dataset

DAD-3DHeads: A Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image ( http://arxiv.org/abs/2204.03688v2 )

ライセンス: CC BY 4.0
Tetiana Martyniuk, Orest Kupyn, Yana Kurlyak, Igor Krashenyi, Ji\v{r}i Matas, Viktoriia Sharmanska(参考訳) DAD-3DHeadsは,高密度で多様な大規模データセットであり,野生における3次元Dense Head Alignmentの頑健なモデルである。 3dヘッド形状を正確に表現した3.5k以上のランドマークのアノテーションを含んでいる。 データ駆動型モデルであるDAD-3DNetは、データセットに基づいてトレーニングされ、形状、表現、ポーズパラメータを学び、FLAMEメッシュの3D再構成を行う。 このモデルにはランドマーク予測ブランチも組み込まれており、リッチな監督と複数の関連するタスクのコトレーニングを生かしている。 実験的に、DAD-3DNetは最先端のモデルよりも優れ、あるいは同等である。 (i)AFLW2000-3DとBIWIによる3次元頭部電位の推定 (II)NoWとFengの3次元顔形状再構成 3)DAD-3Dヘッドデータセットによる3次元高密度頭部アライメントと3次元ランドマーク推定 最後に、カメラアングル、表情、オクルージョンにおけるdad-3dヘッドの多様性により、分布シフトに対する一般化とロバスト性を研究することができる。 データセットのウェブページはhttps://p.farm/resea rch/dad-3dheadsである。

We present DAD-3DHeads, a dense and diverse large-scale dataset, and a robust model for 3D Dense Head Alignment in the wild. It contains annotations of over 3.5K landmarks that accurately represent 3D head shape compared to the ground-truth scans. The data-driven model, DAD-3DNet, trained on our dataset, learns shape, expression, and pose parameters, and performs 3D reconstruction of a FLAME mesh. The model also incorporates a landmark prediction branch to take advantage of rich supervision and co-training of multiple related tasks. Experimentally, DAD-3DNet outperforms or is comparable to the state-of-the-art models in (i) 3D Head Pose Estimation on AFLW2000-3D and BIWI, (ii) 3D Face Shape Reconstruction on NoW and Feng, and (iii) 3D Dense Head Alignment and 3D Landmarks Estimation on DAD-3DHeads dataset. Finally, the diversity of DAD-3DHeads in camera angles, facial expressions, and occlusions enables a benchmark to study in-the-wild generalization and robustness to distribution shifts. The dataset webpage is https://p.farm/resea rch/dad-3dheads.
翻訳日:2022-04-12 11:28:48 公開日:2022-04-11
# ニューラルタンジェントカーネルに基づく生成逆法

Generative Adversarial Method Based on Neural Tangent Kernels ( http://arxiv.org/abs/2204.04090v2 )

ライセンス: Link先を確認
Yu-Rong Zhang, Sheng Yen Chou, Shan-Hung Wu(参考訳) 最近のGAN(Generative Adversarial Network)の開発により、多くのコンピュータビジョンアプリケーションが開発された。 高い合成品質にもかかわらず、訓練用ganはしばしば非収束、モード崩壊、勾配の消失などいくつかの問題に直面している。 例えば、リプシッツ連続性を正則化し、ワッサーシュタイン距離を採用するなどである。 これらの方法は部分的には解けるが、この問題はディープニューラルネットワークを用いた判別器のモデル化によるものであると論じる。 本稿では,ニューラル・タンジェント・カーネル(NTK)と呼ばれるニューラル・タンジェント・ニューラルネットワーク理論を基礎として,GA-NTK(Generative Adversarial NTK)と呼ばれる新しい生成アルゴリズムを提案する。 GA-NTKは、判別器をガウス過程(GP)としてモデル化する。 NTK理論の助けを借りて、GA-NTKのトレーニング力学を閉形式公式で記述することができる。 閉形式式でデータを合成するために、目的を単一レベルの逆最適化問題に単純化することができる。 その結果,GA-NTK は GAN に匹敵する画像を生成することができるが,様々な条件下での訓練がより容易であることがわかった。 また,GA-NTKの現在の限界についても検討し,GA-NTKをより実用的なものにするための回避策を提案する。

The recent development of Generative adversarial networks (GANs) has driven many computer vision applications. Despite the great synthesis quality, training GANs often confronts several issues, including non-convergence, mode collapse, and gradient vanishing. There exist several workarounds, for example, regularizing Lipschitz continuity and adopting Wasserstein distance. Although these methods can partially solve the problems, we argue that the problems are result from modeling the discriminator with deep neural networks. In this paper, we base on newly derived deep neural network theories called Neural Tangent Kernel (NTK) and propose a new generative algorithm called generative adversarial NTK (GA-NTK). The GA-NTK models the discriminator as a Gaussian Process (GP). With the help of the NTK theories, the training dynamics of GA-NTK can be described with a closed-form formula. To synthesize data with the closed-form formula, the objectives can be simplified into a single-level adversarial optimization problem. We conduct extensive experiments on real-world datasets, and the results show that GA-NTK can generate images comparable to those by GANs but is much easier to train under various conditions. We also study the current limitations of GA-NTK and propose some workarounds to make GA-NTK more practical.
翻訳日:2022-04-12 11:26:05 公開日:2022-04-11
# FashionCLIP: 製品表現のための言語と画像の接続

FashionCLIP: Connecting Language and Images for Product Representations ( http://arxiv.org/abs/2204.03972v2 )

ライセンス: Link先を確認
Patrick John Chia, Giuseppe Attanasio, Federico Bianchi, Silvia Terragni, Ana Rita Magalh\~aes, Diogo Goncalves, Ciro Greco, Jacopo Tagliabue(参考訳) オンラインショッピングの着実に増加は、ますます複雑なMLとNLPモデルの開発と相まって進んでいる。 ほとんどのユースケースは専門的な教師付き学習問題としてキャストされていますが、実践者は製品のより転送可能な表現から大きな恩恵を受けるでしょう。 本研究では,ファッション業界におけるCLIPライクなモデルであるFashionCLIPをトレーニングするための,コントラスト学習の最近の発展の上に構築する。 検索、分類、接地機能を示し、我々のモデルとコードをコミュニティにリリースする。

The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from more transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model for the fashion industry. We showcase its capabilities for retrieval, classification and grounding, and release our model and code to the community.
翻訳日:2022-04-12 11:25:38 公開日:2022-04-11